把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源|机器人_新浪科技

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

论文一作为北卡罗来纳大学教堂山分校张子健，指导老师为北卡罗来纳大学教堂山分校助理教授 Huaxiu Yao。共同第一作者为华盛顿大学 Kaiyuan Zheng，其余作者包括来自北卡教堂山的 Mingyu Ding、来自华盛顿大学的 Joel Jang、Yi Li 和Dieter Fox，以及来自芝加哥大学的 Zhaorun Chen、Chaoqi Wang。

论文标题：GRAPE: Generalizing Robot Policy via Preference Alignment
论文链接：https://arxiv.org/abs/2411.19309
项目地址：https://grape-vla.github.io
代码地址：https://github.com/aiming-lab/GRAPE

研究背景

近年来，视觉-语言-动作模型（Vision-Language-Action, VLA）在诸多机器人任务上取得了显著的进展，但它们仍面临一些关键问题，例如由于仅依赖从成功的执行轨迹中进行行为克隆，导致对新任务的泛化能力较差。

此外，这些模型通常通过微调来复制在不同环境下由专家收集的演示数据，这导致了分布偏差，并限制了它们对多样化操作目标（如效率、安全性和任务完成）的适应能力。

方法部分

为了解决这一问题，我们提出了 GRAPE，一种即插即用的算法，通过偏好对齐提升机器人策略的泛化能力，并支持将 VLA 模型对齐到任意设定的目标。GRAPE 的框架如下图所示：

GRAPE 带来了以下三大优势，显著增强了 VLA 模型的泛化性：

GRAPE 在轨迹层面通过强化学习（RL）目标对 VLA 进行对齐，赋予模型全局决策能力，而不仅仅是简单的行为克隆；

GRAPE 隐式建模了成功和失败尝试中的奖励，从而提升对多样化任务的泛化能力；

GRAPE 采用可扩展的偏好合成算法。GRAPE 通过与任意目标对齐的偏好对轨迹进行排序，进而使得 VLA 模型能被对齐到设定的目标上。

具体而言，GRAPE 的框架可以被拆成三个部分：Trajectory-wise Preference Optimization、Customized Preference Synthesis 和 Iterative Online Alignment。以下是这三个部分的详细介绍：

Trajectory-wise Preference Optimization（轨迹级偏好优化）：

GRAPE 将逐步训练的 VLA 模型扩展到轨迹级别，并通过强化学习（RL）目标进行训练，确保对齐后的策略能够优先选择被接受的轨迹，而非被拒绝的轨迹。

具体而言，我们基于 DPO 的 Loss 函数进行了改进，引入了一种全新的 TPO_Loss，使得模型能够学习轨迹级别的偏好。我们利用模型在任务中采集的较优与较劣的尝试（分别计为 ζ_w，ζ_l），建立了 TPO 偏好数据集，最终使得模型在 TPO 训练后在全局层面获得了对齐，并增强了其鲁棒性。

图 2 TPO-Loss 公式

Customized Preference Synthesis（定制化偏好合成）：

基于 TPO-Loss 的设计，我们需要对于轨迹的优劣进行建模，从而构建对应的偏好数据集。然而，对于一些复杂的机器人任务，并没有能够用于轨迹排序的奖励模型。

针对这个问题，GRAPE 引入了一种可扩展算法，将复杂操作任务分解为独立阶段，并通过一个大型视觉-语言模型提出的关键点，自动引导偏好建模过程中的时空约束。这些约束具有灵活性，可根据需求进行定制，使模型与不同目标（如安全性、效率或任务完成）保持一致。

Iterative Online Alignment（迭代式在线对齐）：

GRAPE 通过以下迭代循环不断优化对齐过程：1）在线样本采集，2）合成偏好排序，3）轨迹级偏好优化。这种方法逐步提升了 VLA 策略的泛化能力，并使其与任意目标更好地对齐。

实验结果

真机泛化实验

我们在域内任务以及五种分布外泛化（OOD）任务上评估了 GRAPE 的性能，这些 OOD 任务包括：视觉（新的视觉环境）、主体（未见过的物体）、动作（未见过的操作）、语义（未见过的提示）和语言落地泛化（物体处于未见过的空间位置）。

结果显示，GRAPE 在这些 OOD 任务上的表现分别比最先进的 OpenVLA-SFT 模型提升了 20.7%、27.5%、10.0%、5.0% 和 26.7%。这充分体现了通过偏好对齐过程所实现的卓越泛化能力。

仿真泛化实验

我们进一步在 Simpler-Env 和 LIBERO 环境中评估了 GRAPE 的性能，重点考察三种 OOD 任务的泛化能力：主体（未见过的物体）、物理属性（未见过的物体尺寸 / 形状）和语义（未见过的提示）。

结果显示，GRAPE 在这些 OOD 任务上相较 OpenVLA-SFT 模型分别提升了 8.0%、12.3% 和 19.0% 的表现。

特定对齐目标分析

GRAPE 能够高效地将机器人策略与通过自然语言指定的多种目标对齐，例如任务完成、安全性和效率。这些目标被融入多阶段的成本函数中，进而影响采样轨迹的排序。

实验表明，当对齐目标为更安全或更高效的操作策略时，GRAPE 可将碰撞率降低 44.31%，或将执行轨迹的长度缩短 11.15%。

图4：指定的对齐目标（安全），训练后的模型学会了安全地执行操作

结论

本文提出了 GRAPE，一种即插即用的 VLA 模型对齐框架，在多种机器人任务场景下均能使用，能够基于轨迹偏好提升机器人策略的泛化能力，并支持将模型对齐到指定目标。

关键词 : 机器人

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

来电聊

专题

官方微博

公众号