Cross-Embodiment/数据集/VLA,具身智能今年的研究重点在哪?

Cross-Embodiment/数据集/VLA,具身智能今年的研究重点在哪?
2024年09月01日 12:48 机器之心Pro

机器之心PRO · 会员通讯 Week 35

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. Cross-Embodiment/数据集/VLA,具身智能今年的研究重点在哪?

Sergey Levine近期研究了哪些具身课题?Cross-Embodiment 能解决数据类型繁杂问题吗?DROID 比 Open X-Embodiment还好用吗?VLA 现在更好用了吗?...

2. a16z 最新 AI 应用 TOP100 榜单公布:消费者最爱用谁家应用?

消费者近期在用哪些 GenAI 应用?哪种类型的应用更受欢迎?新流行的AI应用如何交互?当前热门的AI应用有哪些核心/差异化功能?用户的使用体验如何?...

3. 红衫资本合伙人最新访谈:AI 时代的三大关键因素是服务器、钢铁和电力

David Cahn 对 AI 下阶段有哪些观点?为何高额的资本支出是科技巨头加剧垄断的手法?为什么 David Cahn 认为服务器、钢铁和电力才是推动人工智能领域进步的关键因素?...

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 8 项,国内方面 7 项,国外方面 13 项。

本期通讯总计 25807 字,可免费试读至 11% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读① Cross-Embodiment/数据集/VLA,具身智能今年的研究重点在哪?

事件:具身智能被认为是通往 AGI 的有效路径,也是近期的研究热点。其中,许多工作试图解决真实世界的机器人数据匮乏这一长期挑战,也常有研究开始关注 Cross-Embodiment,尝试将训练好的策略从模拟环境转移到真实机器人,或在具有不同形态、动作的机器人中部署。Sergey Levine 所处的 UC 伯克利作为具身智能重镇之一,参考其团队的研究方向或能窥见具身智能在 2024 上半年的研究重点。

Sergey Levine 最近在研究哪些具身课题?

1、Sergey Levine 是加州大学伯克利分校(UC Berkeley)电气工程与计算机科学系助理教授,专注于研究让自主智能体通过学习获得复杂行为的通用算法,集中在机器学习决策和控制领域。

① UC Berkeley 是具身智能重镇之一,旗下有伯克利机器人学习实验室、机器人 AI 和学习实验室、伯克利人工智能实验室、交互式自主与协作实验室等顶尖研究组。

② Sergey Levine 是 UC Berkeley 在具身智能领域的代表人物之一,同样知名的还有 Pieter Abbeel 教授、Trevor Darrell 教授和 Anca Dragan 教授等。

③ 2024 年 3 月,Sergey Levine 和 Karol Hausman 以及 Chelsea Finn 等知名研究者成立了具身智能创业公司 Physical Intelligence(PI),并获得了 7000 万美元投资。[1]

2、Sergey Levine 长期保持较高的论文发布频率,其谷歌学术引用量超过 13 万,在顶会和期刊上的论文接收量也长期位居前列。

3、2024 年 1 月至 8 月底,2024 年 1 月至 8 月期间,Sergey Levine 团队参与了大量具身智能相关研究,于 arxiv 上发布 50+篇论文。

① 在涉及具身智能主题的论文近半,其中许多工作都在尝试从不同的角度解决数据匮乏,以及提高训练中数据的利用效果。

② 在发布的论文中,除了关注具身智能长期存在的数据问题,不少工作还在探索 Cross-Embodiment,尝试用单一的策略或模型来控制不同的机器人,也有工作关注 VLA,探索机器人学习中更强的视觉-语言-动作多模态能力。

Cross-Embodiment 会是解决具身智能数据类型过多的机会吗?

在 Sergey Lavine 于 2024 年所参与的研究工作中有三篇关注了 Cross-Embodiment,即跨实体的策略研究。这三篇论文均探究了如何训练单一的策略或模型来控制不同形态和功能的机器人,但在模型设计和数据集等方面各有侧重。

1、2 月发布的论文《Pushing the Limits of Cross-Embodiment Learning for Manipulation and Navigation》提出了通过跨实体学习(Cross-Embodiment Learning)来实现机器人操作和导航的策略。[2]

① 该工作关注如何在训练单一目标条件策略时,利用来自不同模态(如操作、导航和驾驶)的数据来提高策略的泛化能力。

② 围绕「在训练具有泛化泛能力的“通用”机器人策略时,我们可以在训练集中包含多大程度的体现形式多样性?」的问题,该工作通过将导航和操纵任务框架为单一的目标到达任务,研究了在这些体现形式之间可以进行多大程度的迁移。

③ 该工作训练了一个单一的目标条件策略,能够控制机械臂、四旋翼飞行器、四足动物(quadrupeds)和 mobile bases。其在操作和导航任务上的平均成功率分别为 71%和 80%,

④ 研究者分析指出,与仅使用操作数据相比,联合导航和操作数据训练的策略在五个操作任务上的成功率提高了 20%。特别是在涉及空间推理的新杂乱抓取和架子操作任务中,性能提升显著。

⑤ 研究者认为,通过从导航和操纵数据中学习客观对通用机器人策略带来了帮助,并希望这项工作是朝着实现真正的“机器人基础模型”迈出的一步,实现让一个模型利用所有机器人的数据,并开箱即用地控制任何机器人。

2、5 月发布的论文《Octo: An Open-Source Generalist Robot Policy》提出了基于 Transformer 的开源通用机器人策略 Octo,能够处理多种机器人平台(身体)和任务。[3]

① 该工作同样关注机器人操作中的泛化问题,相比 GNM、RoboCat 模型和 RT-X 等模型在灵活性和对新观察的动作空间适应性的缺陷,该工作希望控制策略能够快速适应新的感官输入和动作空间。

② Octo 由输入分词器、Transformer 骨干和输出头(output head)三部分组成,输入分词器将任务描述、目标图像和观察序列转换为 token;Transformer 骨干处理这些 token 并生成嵌入;输出头生成对应的动作作为输出。

③ 研究者利用 Open X-Embodiment 数据集的 80 万条机器人演示对 Octo 进行预训练,得到了 27M 参数的 Octo-Small 和 93M 参数的 Octo-Base 两款模型。

④ 研究者在 9 个机器人平台进行测试,Octo 在零试任务中平均成功率为 72%,比 RT-1-X 高出 29%。在 WidowX 和 RT-1 Robot 任务上,Octo 的表现与 RT-2-X 相似。数据高效微调中,Octo 的平均成功率为 52%,优于从头开始训练和预训练的 VC-1 模型。

⑤ 局限性上,Octo 在处理腕部相机信息方面存在挑战,并且在语言条件和目标条件策略性能之间存在较大差异,未来或许可以通过扩大训练数据、改进语言条件、支持腕部相机以及整合非最佳演示数据来改善。

3、8 月发布的论文《Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation》则提出了 CrossFormer 的机器学习模型,能够处理操纵、导航、行走和飞行等任务的数据。[4]

① 该工作与「Pushing the Limit」相似,试图通过训练单一的策略来控制不同类型的机器人,如双臂操作系统、轮式机器人、四旋翼飞行器和四足动物等。

② 该工作提出的 CrossFormer 通过三个环节来解决机器人跨实体学习。首先是构建输入序列,通过将每个时间步骤的观测进行分块,用不同的编码器把图像转换成序列化的 token;在输入序列中插入特殊的 readout tokens,用 Transformer 处理输入来生成嵌入序列,再用不同的动作头预测相应维度;最后利用动作块提高时间一致性。

③ CrossFormer 的训练数据集包含 20 种不同机器人类型,涉及 Open Cross-Embodiment 数据集的子集、DROID Franka 操作数据集、ALOHA 多任务数据集、GNM 导航数据集等。

④ 研究者在 WidowX 操作、Franka 操作、ALOHA 双臂操作、LoCoBot 导航等任务上评估了 CrossFormer,发现该模型在所有评估设置中的平均成功率为 73%,而单一机器人数据集基线模型的成功率为 67%。

⑤ 总体而言,CrossFormer 能够控制单臂和双臂操作系统、轮式机器人、四旋翼飞行器和四足动物在内的多种不同类型的机器人,且性能优于针对个体机器人定制的专业策略,切训练过程不需要手动对齐不同体现的动作空间。

数据集不够大,既要人工采,也需要机器人自己学?

Sergey Levine 今年参与研究中,有两篇论文涉及具身智能领域数据集构建的问题。其中,「DROID」构建了比此前 Open X-Embodiment 涵盖更多场景的数据集;「SOAR」则提出了一种利用 VLM 来让机器人自主收集数据并学习技能的方法。

1、3 月的论文《DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset》开发了具有大规模、多样化场景、任务和对象的新型机器人操作数据集 DROID。[5]

① DROID 数据集包含了 76k 个示范轨迹,相当于 350 小时的交互数据,这些数据跨足 564 个场景、86 项任务和 52 座建筑,由分布在北美、亚洲和欧洲高校即研究所的 18 个实验室收集所得,耗时 12 个月。

② DROID 的数据由 50 名数据收集者完成,所有数据均在相同的机器人硬件平台上收集,每个数据收集会话包括移动机器人到新场景、进行外部相机校准、选择视角以及执行随机采样的任务。

③ 相比 Open X-Embodiment,DROID 的数据涵盖更多场景,且具备更高的一致性,同时数据集经过后处理,使用众包平台标注自然语言指令。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片