全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
2025年12月12日 11:21 机器之心Pro

在 Physical Intelligence 最新的成果 π0.6 论文里,他们介绍了 π0.6 迭代式强化学习的思路来源:

其中有我们熟悉的 Yuke Zhu 的研究,也有他们自己(Chelsea Finn、Sergey Levine)的一些研究,我们之前对这些工作一直有跟踪和介绍。此外,还有来自国内具身智能团队的工作,比如清华大学、星动纪元的研究。随着 π*0.6 的发布,VLA+online RL 成为了一个行业共识的非常有前景的研究方向大语言模型从SFT到RL的发展方向也逐渐在具身研究中清晰明朗。

一、为什么VLA+RL很重要

图注:VLA模型依赖研读微调图注:VLA模型依赖研读微调

在具身智能(Embodied AI)领域,科学家们正在尝试将强大的视觉-语言模型(VLM)应用到机器人的底层控制中,这就是所谓的VLA模型。通常,这些模型是通过模仿人类专家的示范数据(监督微调,SFT)来学习的。

图注:模仿学习的局限图注:模仿学习的局限

但是,仅靠模仿是不够的。如果机器人遇到了从未见过的情况,或者专家数据不够完美,机器人就会不知所措

而正如我们在深扒了Π*0.6的论文,发现它不止于真实世界强化学习所说的,模仿学习能让机器人成功做出动作,但是让它每次都成功是非常难的。如果想让机器人非常鲁棒、持久的工作需要借助强化学习的力量。相较于离线强化学习通常受限于演示数据的质量,模型很难超越提供数据的专家,在线 RL 允许智能体通过试错来发现更优解

二、强化学习应用在VLA的三大难点?

图注:VLA RL的难点图注:VLA RL的难点

理论上,强化学习(RL)可以让机器人通过与环境互动、试错来持续进步,但是这其实不是一件容易的事情

图注:LLM和具身在RL上的区别图注:LLM和具身在RL上的区别

将类似 GPT 这样的大模型与强化学习结合(如 RLHF)在聊天机器人领域非常成功,但在控制物理机器人时却困难重重:

  • 环境差异:聊天机器人是在离线数据集上训练的,而机器人需要在物理世界中实时探索。物理任务通常周期长、奖励稀疏(做完一整套动作才算成功),这使得学习非常困难。

  • 模型坍塌与不稳定性:研究发现,如果直接对巨大的 VLA 模型(数十亿参数)进行在线强化学习,模型很容易出现“灾难性遗忘”或训练崩溃,导致性能甚至不如微调前。

  • 算力负担:在本地机器上对几十亿参数的模型进行全量梯度的强化学习更新,对硬件要求极高,通常超出了本地机器人控制器的算力极限。

三、星动纪元 iRe-VLA 最先突破 VLA 强化学习困境,也是 π*0.6 的引用来源

对于VLA的强化学习困境,行业内其实有三种类型的解决方案:

  • 第一种:外挂式干预一些尝试不敢轻易触碰庞大的 VLA 参数。比如V-GPS (Value-Guided Policy Steering)训练一个通用的价值函数,在推理时,让 VLA 生成多个候选动作,用价值函数对它们进行打分和重排序,选择最好的动作执行;DSRL训练一个小型的 RL 策略来优化扩散模型的输入噪声,通过改变输入噪声来“引导”冻结的 VLA 生成高价值动作这种方法虽然安全,但 VLA没有真正发生质变。

  • 第二种:暴力美学以 VLAC 为代表的工作尝试直接用 PPO 等算法全量微调 VLA。虽然勇气可嘉,但大模型在 RL 训练中极易出现灾难性遗忘和模型坍塌(Model Collapse),且对算力的要求很高。

  • 第三种是从探索到内化的循环让我们眼前一亮的是一篇以前没有跟踪过的,清华和UC Berkeley的《Improving Vision-Language-Action Model with Online Reinforcement Learning》(通过在线强化学习改进视觉-语言-动作模型),来自于清华大学助理教授、星动纪元创始人陈建宇老师组。星动纪元这项研究是全球最早将在线RL引入VLA的工作,在ICRA发表,π*0.6 也引用了该工作,是中美两方在RL上的顶尖对话。

这两篇文章代表了第三种路径。它们不再盲目地套用 RL 算法,而是利用监督微调(SFT)将 RL 探索出的高价值行为(成功轨迹或高优势动作)稳定地内化为模型的原生能力。

π*0.6 不在此详细赘述。我们来看下 iRe-VLA。

  • 论文:Improving Vision-Language-Action Model with Online Reinforcement Learning

  • 论文链接:https://arxiv.org/abs/2501.16664

iRe-VLA 的作者设计了一个两阶段循环迭代的学习流程。这个流程的核心思想是:分而治之,动静结合。

星动纪元:iRe-VLA 模型架构设计

VLA 模型由两部分组成:

VLM 主干(大脑):使用预训练的大型视觉-语言模型(如 BLIP-2),负责理解图像和指令,拥有丰富的世界知识。

Action Head(四肢):一个轻量级的动作输出层(由 Token Learner 和 MLP 构成),负责将 VLM 的深层特征转化为具体的机器人控制信号(如机械臂的移动、夹爪的开合)。

为了提高效率,作者还使用了 LoRA(低秩适应)技术,避免全量微调所有参数。

图注:模型架构图注:模型架构

核心流程:两个阶段的交替

iRe-VLA 方法不是一次性训练,而是在以下两个阶段中反复迭代:

第一阶段:在线强化学习(探索与发现)

图注:稳定探索图注:稳定探索

在这个阶段,机器人的目标是去试错,探索如何完成新任务。

  • 冻结大脑(Freeze VLM):为了防止模型崩溃和减少计算量,作者冻结了巨大的 VLM 主干参数。

  • 只练四肢(Train Action Head):仅训练轻量级的 Action Head。同时引入一个Critic Head(评价网络)来辅助训练。

  • 优势:因为只更新很少的参数,训练非常稳定,而且计算量很小,可以在本地机器(如单张 4090 显卡)上高效运行。机器人通过不断尝试,找到了一些能够成功完成任务的轨迹(Success Trajectories)。

第二阶段:监督学习(巩固与内化)

在第一阶段,机器人可能只是碰巧学会了操作,为了让这种能力真正融入模型,需要进行第二阶段。

图注:融合与升华图注:融合与升华
  • 全模型微调:解冻 VLM 主干,对整个模型(包括 LoRA 参数)进行训练。

  • 混合数据:训练数据不仅包含第一阶段探索到的新成功轨迹,还混合了原始的专家示范数据。

  • 优势:这不仅利用了大模型的强大表达能力来记住新技能,还因为混合了旧数据,有效防止了灾难性遗忘(即学会了新任务,忘了旧任务)。这一步计算量大,通常放在云端服务器(如 A100 集群)上进行。

  • 图注:两阶段

总结:机器人先在“小参数模式”下大胆探索(阶段1),找到方法后,再在“全参数模式”下把经验固化到大脑中(阶段2),如此循环往复。

图注:循环往复图注:循环往复

三、 实验结果与分析

图注:三种情况的实验结果分析图注:三种情况的实验结果分析

作者在仿真环境(MetaWorld, Franka Kitchen)和真实世界(Panda 机械臂)中进行了大量实验,验证了该方法的有效性。

训练稳定性对比

实验显示,如果使用标准的 PPO 算法直接微调 VLA 模型,成功率曲线震荡剧烈,甚至在很多任务上性能下降(变差了)。而 iRe-VLA 的曲线则稳步上升,证明了“分阶段冻结参数”对于稳定训练至关重要。

图注:曲线对比图注:曲线对比

仿真环境表现

图注:仿真环境中具备压倒性优势图注:仿真环境中具备压倒性优势

MetaWorld & Franka Kitchen:在这些基准测试中,iRe-VLA 不仅在原本学过的任务上表现更好(例如从 43% 提升到 83%),还能通过在线探索学会完全没见过的任务。

对比 SFT:相比仅进行监督微调的模型,经过 iRe-VLA 迭代后的模型在所有任务类别(专家任务、RL 训练任务、未见过的测试任务)上的成功率都有显著提升。

图注:不同后训练策略的对比图注:不同后训练策略的对比

真实世界挑战(Real-World Panda)

这是最令人印象深刻的部分。作者让机器人去抓取它从未见过的物体(如形状不规则的茄子、胡萝卜)。

图注:真实世界的提升图注:真实世界的提升
  • 初始状态:仅靠专家数据(SFT),机器人抓取这些新物体的成功率只有 35% 左右。

  • 训练后:经过 iRe-VLA 的在线学习(利用 SACfD 算法提高样本效率),抓取成功率飙升到了 80%。

  • 泛化能力:更有趣的是,训练后的模型去抓取完全未参与训练的第三类物体,成功率也从 37% 提升到了 61%。这说明通过强化学习,模型不仅学会了抓茄子,还变得更聪明、更通用了。

  • 图注:实验和成功率

消融实验:为什么要解冻 VLM?

作者做了一个对比实验:如果在第二阶段依然冻结 VLM,只训练 Action Head(即 iRe-VLA-freeze),效果如何?

结果显示,如果不解冻 VLM,模型的性能提升会遇到瓶颈。这证明了在第二阶段解冻大模型参数是必要的,这样才能利用大模型深层的特征表示能力来彻底掌握复杂技能,并提升泛化性。

图注:消融实验图注:消融实验

四、 结论与意义

这篇文章提出了一种切实可行的方案,解决了大模型在机器人控制中落地难的问题。

  • 稳定性:解决了大模型直接上 RL 容易训崩的问题。

  • 经济性:巧妙地分配了算力,让本地机器人负责轻量级探索,云端服务器负责重量级消化,符合实际部署场景。

  • 持续学习:证明了机器人可以通过自我探索,在不遗忘旧技能的前提下,不断掌握新物体和新任务的操作技能。

图注:该架构的优点图注:该架构的优点

国内的星动纪元的iRe-VLA 的基础上,海外的PI π*0.6,都为我们揭示出了VLA在线强化学习技术的发展前景这条路还有很多未尽的研究话题,比如如何高效探索与稀疏奖励下的新技能学习,如何面向大规模 VLA 构造稳定可扩展 RL 算法等。

未来发展,我们拭目以待。

机器人PI
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片