CoT 之后,CoF 如何让帧间逻辑从「隐式对齐」变成「显式思考」?

CoT 之后,CoF 如何让帧间逻辑从「隐式对齐」变成「显式思考」?
2025年10月13日 17:24 机器之心Pro

本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。

引言延长 CoT 曾在语言模型中显著提升了推理能力,但显式多步推理耗费 token 多、时间长,在高频实时响应的 C 端 agentic 场景中难以满足需求。同时随着 CoT 在提高语言模型推理能力上的红利逐步释放后,研究者开始尝试将这一思路延伸到视觉领域:CoF(Chain-of-Frames)提供了一种潜在的帧链推理框架,有望进一步改善视频生成与理解中的帧间一致性问题。

目录

01. 帧间一致性不足,CoF 为视频生成和理解模型带来新思路?

CoT 只是「语言的表层叙事」,而非真正的推理?CoF 如何把「语言的思维链」转译为「视频的帧链」?...

02.帧级语义显式融入能否成为解决视频模型 temporal consistency 的关键?

CoF 为何被认为可能成为视频生成模型的「新范式」,它相较传统帧间一致性优化方法的优势如何?从 CoF-Data 到 VChain,研究者如何把「推理链」嵌进每一帧画面?...

03.CoF 前,视频帧间一致性如何保障?

在 CoF 出现之前,视频模型靠什么维系「帧间一致性」?...

01 帧间一致性不足,CoF 为视频生成和理解模型带来新思路?

1、近年来,大语言模型由于引入了 CoT 推理而在复杂任务上取得了较为显著的突破。然而,也有研究者陆续质疑 CoT 的本质和可持续性。

2、今年 7 月,有研究者指出 CoT 更像是一种语言表层的连贯叙事,而非真实的内在推理,并认为 CoT 更多是「对奖赏函数的适应性生成」,而非模型的真实思考过程。[2-1]

① 与此同时,LLM 在推理任务上依赖 CoT 的可监控性方案也被证明是脆弱的。

3、以上观点反映出对 CoT 范式的普遍担忧,即 CoT 虽然能在多步推理题上提高准确率,但其作为推理透明度或模型内在机制的指示作用并不可靠。

4、在这种唱衰 CoT 的大背景下,视觉领域的相关研究者提出了与 CoT 类似的「帧链 CoF」(Chain-of-Frames)概念。它借鉴了 CoT 的思想,但针对具有时间连续性的视觉数据。

5、过往视频生成与理解大模型生成式视频模型由于逐帧生成的特性,往往难以保证帧间一致性(temporal consistency),尤其在复杂场景中跨帧逻辑容易出现断裂。传统方法主要依赖平滑过渡和隐式特征对齐,但在复杂场景中仍难以保证跨帧的逻辑连贯性。

6、今年 9 月,Google DeepMind 团队发表论文首次从理论层面引入了 CoF 概念。他们认为,大规模训练的视频生成模型(如 Veo 3)正在成为通用视觉基础模型,类似 LLM 在 NLP 的角色;而生成式视频模型天生具备逐帧生成的结构,正适合通过帧链式推理来提升帧间一致性。[2-2]

① 具体而言,CoF 让视频模型「观看即思考」,它们不仅填充视觉细节,更通过每一帧的连续演化固化推理逻辑。

② 研究者表明,LLM 通过顺序的文本步骤分解推理过程,而视频模型在时空连续生成内容,每一帧都成为动态过程中的一步推理,形成了帧链推理结构。

③ 经研究者测试,Veo 3 等模型不仅能在无微调条件下完成图像分割、边缘检测等感知任务,还在物理建模(如浮力、反射)和复杂逻辑(如迷宫求解)等任务上表现优异。

7、CoF 强调显式的语义推理链,让模型「思考」每一帧而不仅仅是连续补全帧间细节。[2-3]

① DeepMind 研究团队强调,Veo 3 等视频模型是在大规模多样化视频数据和语言指令提示的联合训练下获得这些能力的。它们并未针对每项任务进行专门标注或微调,而是像视觉领域的 GPT 一样,通过提示引导生成。

② 以上的设计使得模型本身具有强大的泛化能力,既可以通过一套简单的自然语言指令就能驱动模型完成各种任务,无需为每个任务训练不同的模型。

02 帧级语义显式融入能否成为解决视频模型 temporal consistency 的关键?

1、CoF 利用逐帧生成的方式,为视频模型提供了一种天然的时序推理框架。它将 CoT 的多步推理思想移植到视觉生成领域,使视频模型能够以帧为单位进行推理,从而更好解决视频生成与理解大模型的帧间一致性(temporal consistency)问题。

① 与传统依赖隐式特征对齐或平滑过渡的方法不同,CoF 通过显式推理链确保每一帧都遵循逻辑演化,减少跨帧不连贯和细节丢失。

2、以上机制的核心逻辑在于,将帧级语义信息显式融入视频模型,从而显著提高模型的推理能力和跨帧一致性。

3、除了 DeepMind 提出的 CoF 概念外,近期学术界也出现了多种显式利用帧级推理链的视频理解生成技术方案。它们通常引入帧选择、链式推理追踪或关键帧指导等机制,将逻辑推理嵌入视频处理流程。...

 关注👇🏻「机器之心PRO会员」,前往「收件箱」查看完整解读 

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

推理研究者
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片