解锁具身 Scaling Law 需要先搞定异构数据吗？|机器人|异构|AI_新浪科技

机器之心PRO · 会员通讯 Week 41

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. 解锁具身 Scaling Law 需要先搞定异构数据吗？

具身智能数据问题主要是异构问题？处理异构数据是解锁 Scaling Law 的必要不充分条件？哪些方法有希望解决异构数据问题？具身智能了数据还有哪些挑战？...

2. OpenAI 已破解多数据中心分布式训练？美科技巨头比拼 AI 基础设施能力

为什么美科技巨头们都在自建 AI 数据中心？为什么多数据中心训练及液冷技术的突破成为新趋势？各家科技巨头的 AI 基础设施布局情况如何？谁更强？微软和 OpenAI 已经实现多数据中心分布式训练了？？...

3. Alexandr Wang：数据是新一代 AI 的发展核心

如何理解 Wang 提出的 AI 发展三大支柱？Wang 认为，语言模型开发进入第三阶段的标志是什么？如何获取用于语言模型训练的高质量数据？Scale AI 下一步业务方向是什么?...

...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 12 项，国内方面 6 项，国外方面 11 项。

本期通讯总计 26710 字，可免费试读至 9%

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① LLM 之后，AI 的下个关键词会是 LWM 吗？

引言：数据匮乏是具身智能研究长期面临的问题之一。在机器人数据种类和模态繁多的环境下，许多工作开始关注具身大模型对异构数据集和任务的处理能力，以求得到更通用的模型，乃至解锁具身智能领域的 Scaling Law。

异构的形态和任务是具身智能数据问题的大瓶颈？

清华叉院助理教授、博导赵行曾在访谈中指出，在尝试使用 AI 技术开发机器人时，我们面临的最大挑战是缺乏一个在泛化性和通用性上表现出色的高性能模型[17] 。业内许多工作尝试改进/调整模型架构、学习策略和数据类型等方式探求这种 Foundation Model。近期的部分工作显示出机器人数据的异构特质似乎是一个重要问题。

1、具身智能的目标是使机器人能够通过感知-运动回路（perception-action loop），使用物理实体来感知和建模环境，根据任务目标和实体能力进行规划和决策，最后使用实体的运动能力来完成任务。

2、构建通用且泛化的具身智能体十分困难，伴随大模型技术的发展，大模型驱动的具身智能近期业界的研究重点，其主要分为两条路径：一是端到端训练一套具身大模型；二是基于现有的 LLM 或 VLM 的训练具身分层模型。[7]

① 在 Scaling Law 的鼓励下，许多研究者相信，只要有足够多的高质量机器人数据，机器人大模型实现接近通用的泛化性将是必然。但如何获取充足的机器人数据的问题仍未得到妥善解决。

② 具身分层模型通过不同的模型来执行感知、决策、控制，实现难度相对较低，但难点在于不同步骤间的融合和一致性难以处理。

3、为了构建具身智能体在决策、导航、控制等任务中的策略，往往需要为每个机器人、任务和环境收集特定数据，而这些学到的策略往往无法超越这些特定设置。

① MIT 博士生陈博远此前在一篇文章中将业界解决机器人数据匮乏问题的努力概括为「灵巧性（dexterity）」与「泛化性（generalization）」两个维度。前者反映单一场景和任务较为固定情况下机器人可完成任务的难度；后者则研究机器人在新场景下执行新任务的能力。[8]

3、针对机器人数据匮乏的问题，许多工作尝试利用人类视频、动捕、遥操、仿真等方式来训练机器人策略，也有部分工作开源了大规模的机器人数据集，但这些这些数据的异质性带来了新的挑战。

① 导致机器人数据异质性的原因之一在于本体差异。不同的机器人是不同硬件上的物理实现，包括自由度、末端执行器、运动控制器和工作空间配置，这些差异都是为了特定应用的需求而构建。

② 另一种常见异质性于视觉层面。机器人通常配备有不同的相机传感器，安装在不同的位置（如手腕和/或第三人称视角），并且由于环境和任务的不同，每个机器人的视觉外观差异巨大。

4、在现有的机器人数据集和任务存在异构特质的情况下，具身智能领域当前的一大问题在于，如何利用异构的机器人数据进行预训练，以建立更具泛化能力的机器人基础模型。

必要不充分条件？用好异构数据对解锁具身智能的 scaling law 帮助大吗？

Scaling Law 是当下 LLM 突破和发展的重要经验性发现，但大模型驱动的具身智能尚未实现它的“ChatGPT 时刻”。许多研究者曾分享过对具身智能的 Scaling Law 的思考和见解。综合来看，如果能解决机器人数据的异构特质的局限，具身智能研究将得以利用更广泛的数据集来训练模型，成为推动具身智能 Scaling Law 发掘的必要不充分条件。

1、具身智能在实体中融合了视觉、语言、决策等多方面的技术来提升智能体的通用和泛化性，目前 LLM/VLM 所使用的数据尚不能满足具身智能研究所需的物理世界规律，这也导致了 LLM 的 Scaling Law 无法直接复制至具身智能。

2、穹彻智能联创、上海交通大学教授卢策吾在 WAIC2024 的演讲中指出，即便逻辑成立，将 LLM 的 Scaling Law 复制到具身智能仍存在数据获取难度层级不同的瓶颈。他提出的「两级火箭大模型」理论和低成本数据获取强调了对不同形态的数据的使用，以及具身大模型的两级设计，进而让模型获得一种 Scaling Law by Skill。[9]

① 「两级火箭大模型」指穹彻智能开发的实体世界大模型和机器人行为大模型，前者让机器人训练掌握常识性的、低维的操作无力表征，后者充分耦合操作无力啊尝试表征和实体的高进度力反馈能力，两者端到端联合训练可以大幅减少数据量需求。

② 训练两种大模型需要低成本、规模化的数据获取方案，这里涉及物体操作结构数据、多力位混合的操作数据等类型，以及遥操、仿真和其他组合式的数据方案。

③ 卢策吾表示，其团队由此开发的穹彻具身大脑 Noematrix Brain 所涵盖的原子技能库 AnySkill 可以通过推进机器人基础技能的稳健性和通用性至 99.X%，进而产生能力跃迁，实现 Scaling Law by skill。

2、清华叉院助理教授和具身智能实验室负责人许华哲同样在一场谈话中强调处理好异构数据将有希望解锁机器人的 Foundatin Model。[10]

① 他指出，机器人的 Foundation Model 是值得探索的道路，但机器人数据的异构特质使得将这些数据融合到一个模型中非常困难。一旦这个问题得到解决，机器人的 Foundation Model 就不远了。

3、相较于处理好采集到的异构的机器人数据的工作，北大 EPIC Lab 负责人、银河通用创始人王鹤在 WAIC2024 分享中分享了他对具身智能的 Scaling Law 的看法，即银河通用团队所选择的仿真数据路线，绕开了异构数据的难点。

① 根据介绍，王鹤及团队利用合成数据克服了物理不一样、控制不一样和视觉感知不一样等问题，解锁了「想要什么就有什么，想要多少就有多少」。进而实现完全靠合成数据，通过视觉闭环反馈，实现泛化操作的大迁移。

② 王鹤分享了他观察到的具身智能的 Scaling Law，「当用 10 亿数据的时候，在仿真环境里进行测试，能够得到 86%的成功率；但如果只用 10 万数据的话，只有 58%的成功率」。其团队由此训练的端到端大模型可以做到比谷歌 RT2 更高精度的机器人操作。

哪些方法可以解决具身智能研究中极为异构的数据集和任务

加州大学伯克利分校电气工程与计算机科学系助理教授 Sergey Levine 在 2024 年发布的工作中尝试了许多角度来解决具身智能数据匮乏问题，同时有不少工作探索了 Cross-Embodiment，尝试用单一的策略或模型来控制不同的机器人。MIT CSAIL 的博士生王理睿一直致力于研究能够随着异类数据进行扩展的「舰队学习」（fleet learning）。他导师是 Russ Tedrake 教授，并与何凯明教授有密切合作。他近期的四项工作则从不同的角度去处理机器人数据的异构特质。