搞定视频任务泛化，VLM 还有机会吗？|AI_新浪科技

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. 搞定视频任务泛化，VLM 还有机会吗？

搞定视频任务泛化为何对具身智能尤为关键? 用 VLM 搞视频还有哪几道坎要过? VLM 之外，还有其他更有希望的技术路线吗？...

2. 激增13倍，从关键数据看AI市场规模

AI 市场当前发展情况如何？得益于哪些关键因素？AI 市场有哪些特点值得关注？为什么说企业难以通过 AI 策略获得其全部价值？在实际应用中存在哪些难题？...

3. Scale AI 调研 2000 从业者看法，剖析「2024 AI 就绪情况」

Scale AI 调研了哪些 AI 从业者？AI 在技术上准备就绪了吗？企业们觉得 AI 准备就绪了吗？开发者觉得现在的 AI 模型好用吗？...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 9 项，国内方面 7 项，国外方面 13 项。

本期通讯总计 23730 字，可免费试读至 11 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①搞定视频任务泛化，VLM 还有机会吗？

日期：5 月 27 日

事件：VLM（视觉语言模型）在许多基于图像的视觉任务中已取得优越的成绩，但对于视频任务的处理仍处于发展初期，尚不能支持具身智能、世界模型等技术路线完成质的突破。Meta 和 Mila 等机构的研究者近期通过综述盘点了 VLM 发展脉络，发现如果能解决数据标注、训练协议和合成数据等挑战，VLM 或能在视频任务中获得泛化能力。

解锁下一代 AI 要先搞定视频数据？

1、目前，AI 领域对于下一代神经网络所需要的能力有一项共识，即模型需要能够对世界进行感知、理解和交互，因此如何更好地利用视频数据，以及如何让模型具备可泛化的视频处理能力是必须越过的门槛。

① 图灵奖得主 Yan LeCun、Coursera 联合创始人 Daphne Koller 曾在 1 月的达沃斯世界经济论坛分享了有关视频数据重要性的观点。（详情请见 Week 04 期会员通讯）

② 许多有关多模态模型的研究也强调了视频数据具备更为丰富的内容，包括视觉、运动、时间和空间等维度的信息，以及提供对环境的实时映射等。视频可以提供多模态视角，帮助模型解提高对环境，对象、动作的理解和预测能力。[8] [9]

2、在具身智能领域，智能体对视频数据的处理能力直接影响其输出的精准度和可泛化性。

① 具身智能领域，控制能力是木桶的最短板，因为智能体对以视频输入的多模态分布、时序相关性和训练稳定性都还有限，导致泛化能力不足。（详情请见 Week 17 期会员通讯）

② 银河通用机器人创始人&CTO、智源具身智能中心主任王鹤在演讲中表示，当前无论 OpenAI、英伟达，还是谷歌的具身机器人都还有巨大的局限性。其一在于具身机器人数据有限，其二在于现有具身控制方法需要大量计算资源和时间来生成视频计划，导致响应速度较慢，难以实现实时响应和快速决策。[12]

3、近期部分工作已证明视频数据的预训练方法可以大幅提升模型表现。

① 字节团队在 2023 年 12 月提出的 GR-1 中采用大规模视频数据进行视频预测的预训练。工作发布时，GR-1 在多任务学习、零样本场景迁移、少量数据、零样本语言指令迁移上都取得了 SOTA 的结果[10]

② 上海 AI Lab 在 2024 年 2 月提出的 VPDD 采用基于人类视频预训练+具身策略微调，训练的模型可以成功预测比较准确的未来运动轨迹，在具身决策任务的表演同样优于以往方法，而且只需要少量数据集就能在以在各种机械臂抓取任务上达到比较高的成功率。[13]

用 VLM 搞视频还有几道坎？搞定视频任务泛化，VLM 还有机会吗？

Meta、Mila、麦吉尔大学和多伦多大学等机构的研究者于 5 月 26 日在 ArXiv 上传综述《An Introduction to Vision-Language Modeling》，用一个章节专门探讨了 VLM 扩展到视频所面临的一系列挑战。总体而言，VLM 离能够理解视频输入，乃至获得泛化的视频任务处理能力仍有一定距离，但未必没有机会。

1、数据标注需要提供更多具备时间、空间信息的监督信号。

①此前训练 VLM 所采用的数据更多关注描述场景，而非动作或运动，导致模型在时间空间上的（弱）监督稀缺，以至于无法有效处理视频任务。

2、 VLM 需要更好的训练协议，如开发有效的视频编码器，捕捉视频中的空间和时间特征，并与文本信息有效地融合。

① 现有的训练协议对视频数据的处理能力有限，导致模型容易出现名词偏见问题，难以处理动作和交互。

3、VLM 需要更好地利用合成数据来提升推理能力。

① 虽然合成数据为训练视频 VLMs 提供了独特的机会，但生成包括时间信息的视频-字幕比图像描述更复杂和成本更高。

4、需要高效的计算能力，支持 VLM 在未来实现实时的视频推理。

① 视频处理比图像更耗费资源，尽管视频数据在帧与帧之间具有高度相似性，有些工作尝试从单帧图像图像中提取更丰富的信息，但算力消耗仍然偏高，且响应时间较慢。

VLM 四大训练范式是什么？

综述《An Introduction to Vision-Language Modeling》梳理了基于 Transformer 的 VLM 和相应训练范式，并列出了其中的代表性工作。

1、VLMs 作为多模态模型的一类，它结合了计算机视觉和自然语言处理两个领域，旨在理解和处理视觉内容（如图像）和语言（如文本）之间的关系。

① VLMs 的核心目标是将视觉信息（图像）映射到语言描述上，这包括但不限于图像字幕生成、视觉问答（VQA）和图像分类等任务。