突破具身智能任务规划边界,刷新具身大脑多榜单SOTA,中兴EmbodiedBrain模型让具身大脑学会「复杂规划」

突破具身智能任务规划边界,刷新具身大脑多榜单SOTA,中兴EmbodiedBrain模型让具身大脑学会「复杂规划」
2025年12月03日 16:30 机器之心Pro

在人工通用智能(AGI)的探索征程中,具身智能 Agents 作为连接数字认知与物理世界的关键载体,其核心价值在于能够在真实物理环境中实现稳健的空间感知、高效的任务规划与自适应的执行闭环。

然而,当前主流大语言模型(LLMs)与多模态大语言模型(MLLMs)在具身任务场景中,普遍面临三大核心瓶颈:一是模型设计与智能体实际需求存在显著脱节,难以适配物理世界的动力学特性、传感器噪声与动态变化;二是实时延迟与任务性能间存在不可调和的权衡,轻量化模型虽能满足实时性需求,却在指令遵循、空间感知等关键能力上表现薄弱;三是现有评估依赖非真实的离线指标,无法全面反映模型在复杂真实场景中的鲁棒性与泛化能力。

为此,中兴星云大脑团队(ZTE NebulaBrain Team)重磅推出具身视觉 - 语言基础模型 EmbodiedBrain,以 7B 和 32B 两种参数规格构建了涵盖数据架构、训练策略、评估体系的全流程创新框架,为下一代通用具身智能体的发展提供了突破性解决方案。

  • Arxiv: https://arxiv.org/abs/2510.20578

  • WebPage: https://zterobot.github.io/EmbodiedBrain.github.io/

  • Code: https://github.com/ZTERobot/EmbodiedBrain1.0/

  • Models:https://huggingface.co/ZTE-AIM/EmbodiedBrain-7B

  • https://huggingface.co/ZTE-AIM/EmbodiedBrain-32B

架构创新:模块化设计实现感知 - 推理 - 行动一体化闭环

EmbodiedBrain 以 Qwen2.5-VL 为基础框架,创新性地采用模块化编码器 - 解码器架构,成功打通了「感知 - 推理 - 行动」的全链路,实现了三大核心能力的深度协同(图 1)。

图 1 EmbodiedBrain 的架构:该模型处理多种多模态输入,包括任意分辨率的图像、长视频序列以及复杂的语言指令。视觉输入由视觉编码器和 MLP 投影器处理,文本输入则进行分词处理。所有输入被送入核心大语言模型(LLM)解码器,该解码器执行深度推理并生成结构化输出。最终输出包含三部分:自然语言响应()、分步规划()和可执行动作序列(),从而实现对具身环境的直接控制与交互。

该架构的三大核心组件各司其职且高效联动:

1. 原生分辨率视觉 Transformer(ViT):作为视觉编码器,其采用窗口 注意力机制,能够在处理原生分辨率图像时兼顾效率与细节捕捉;同时引入二维旋转位置编码(2D Rotary Positional Embedding, ROPE),精准保留图像中的空间几何关系,为后续空间推理提供扎实的视觉基础。

2. 轻量级 MLP 视觉 - 语言融合器:承担视觉特征与语言嵌入空间的「桥梁」作用,通过压缩视觉特征维度、对齐模态语义分布,确保视觉信息与语言指令能够在统一的表示空间中高效交互,避免多模态信息割裂导致的理解偏差。

3. 基于 Qwen2.5 初始化的解码器:作为模型的「认知核心」,采用仅解码器结构,引入时间对齐的多模态 ROPE(Multimodal RoPE Aligned to Absolute Time)技术,显著强化对长视频序列的时序理解能力,能够处理动态场景中的时间依赖关系。

从工作流程来看,视觉输入首先经视觉编码器与 MLP 融合器处理,转化为与语言兼容的特征;文本指令经分词后与视觉特征共同构成多模态 token 序列,输入解码器;最终解码器输出包含三部分的结构化结果: 字段提供自然语言交互反馈, 字段将任务分解为 [Navigate](导航)与 [Manipulate](操作)两类可解释步骤, 字段以二元 / 三元组格式生成直接调用智能体 API 的可执行动作。

以「从冰箱取番茄并加热」任务为例(图 1),模型可生成「导航至冰箱→打开冰箱→取出番茄→导航至微波炉→加热番茄」的清晰规划,以及对应的 [Navigate, Fridge]、[Manipulate, Open Fridge] 等动作序列,完美实现从语义理解到物理执行的闭环。

数据与训练:Agent 对齐设计与强化学习突破长程规划瓶颈

数据架构:面向具身智能的结构化设计与多源筛选

为解决模型与具身智能体需求脱节的根本问题,EmbodiedBrain 创新设计了规划中心型结构化数据格式(图 2、图 3),该格式严格遵循「用户查询 - 模型响应 - 显式规划 - 底层动作」的层级逻辑,确保高层任务目标与底层执行步骤的精准对齐。

以「将脏衣服放入洗衣机」任务为例(图 2), 字段明确交互意图, 字段分解为 5 个导航与操作步骤, 字段以 [Search, Dirty clothes]、[Navigate, Basket] 等标准化格式生成动作,既满足机器可解析性,又保留人类可解释性。

图 2: EmbodiedBrain 训练数据概览图 2: EmbodiedBrain 训练数据概览

训练数据涵盖四大核心类别,通过多阶段筛选策略保障质量:

1. 通用多模态指令数据:包括 tulu-3-sft-personas-instruction-following(10K 样本,强化指令遵循与约束满足)、UltraIF-sft-175k(20K 样本,含单轮 / 多轮对话,提升长程记忆)、MM-IFInstruct-23k(22K 样本,结合图像接地对话,强化多模态 grounding),为模型奠定通用指令理解基础。

2. 空间推理数据:基于 EmbSpatial 与 pixmo-points 数据集,通过「基线模型生成验证 + GPT-4o 二次过滤」的两阶段拒绝采样(图 2),筛选出 50K 空间推理样本(含目标查询、物体关系推理)与 60K 视觉定位样本(含计数、坐标标注),强化模型对三维空间的理解能力。

3. 任务规划数据:基于 Alfred 数据集(AI2-THOR 环境),通过解析 PDDL 文件生成子任务序列、捕获全景图像与物体边界框、动态更新物体位置等流程(图 3),构建空间接地的规划数据集,确保规划步骤与物理环境适配。

4. 视频理解数据:融合 Ego4D、Epic-Kitchens、EgoPlan-IT 三大数据集,生成「回顾性理解」(如「已完成何种动作」)与「前瞻性规划」(如「下一步应执行何种动作」)两类 QA 样本,并通过 Qwen2.5-VL-72B 过滤确保数据质量,提升模型对动态场景的时序推理能力。

图 3 监督微调(SFT)阶段的整体数据分布及各动作的规划数据分布图 3 监督微调(SFT)阶段的整体数据分布及各动作的规划数据分布

在数据配比上,通过对比 5 种不同数据混合方案(表 1),发现「通用 MLLM 数据 52K: 空间推理数据 130K: 任务规划数据 51.5K: 视频理解数据 20K」的配比(52:130:51.5:20)效果最优 —— 该配比在空间推理平均得分达 70.27%(仅比最高值低 0.6%),同时在任务规划平均得分达 64.64%(为所有方案最高),尤其在执行规划(EP1/EP2)与目标导向推理(EgT)子任务上提升显著,为后续训练奠定了均衡的数据基础。

训练策略:两阶段范式与 Step-GRPO 创新突破

EmbodiedBrain 采用「监督微调(SFT)+ 强化学习(RL)」的两阶段训练策略,层层递进优化模型能力:

图 4 所提出的 Step-GRPO 的详细流程图 4 所提出的 Step-GRPO 的详细流程

Stage 1:多模态拒绝采样 SFT:核心目标是提升模型的基础感知与推理能力。针对数据噪声问题,设计 “粗粒度过滤 + 细粒度验证” 的两阶段拒绝采样:首先用 Qwen2.5-VL-7B 生成 8 个候选响应,通过 Qwen3-30B-A3B-Instruct-2507 筛选掉明显错误样本;再用 Qwen2.5-VL-72B 生成 “ oracle 答案”,与原始标签对比,剔除标签错误样本。该过程有效去除数据噪声,确保 SFT 阶段学习信号的可靠性。

Stage 2:Step-GRPO 多任务强化学习:如何让模型在没有人类手把手教学的情况下,学会处理复杂的长序列任务?EmbodiedBrain 给出的答案是 Step-GRPO(分步增强的组相对策略优化)。类似于 DeepSeek-R1 等推理模型背后的强化学习思路,Step-GRPO 引入了「引导先验」机制。这就好比老师在教学生解难题时,不是直接给答案,而是给出关键的中间步骤提示。这种机制将复杂的长任务拆解为可逐步优化的子问题,配合异步奖励计算架构,不仅让模型学会了「三思而后行」,还实现了约 20% 的训练加速

聚焦长程任务规划与输出格式标准化。针对传统强化学习在长序列规划中稳定性差、收敛慢的问题,创新提出 Step-Augumented Group Relative Policy Optimization(Step-GRPO)方法(图 4):在任务规划时,随机引入 1-3 步前置规划步骤作为「引导先验」(Guided Precursors),将复杂长任务分解为可逐步优化的子问题。例如在「寻找画笔」任务中,通过注入「导航至设备架」、「定位画笔」等前置步骤,帮助模型建立步骤间的依赖关系,提升规划连贯性。

同时,为提升训练效率与奖励可靠性,EmbodiedBrain 设计了多维度奖励系统:

1. 指令遵循任务:基于答案与真值的匹配度计算正确性奖励;

2. 视觉感知任务:接地与检测任务采用加权 IoU 评分,计数任务采用数值匹配度;

3. 空间感知任务:区分选择题与描述题,结合语义一致性与简洁性评分;

4. 任务规划任务:采用「规则奖励(0-1 分,评估 XML 格式完整性、动作集合规性)+GRM 奖励(0-1 分,Qwen3-30B-A3B 评估规划合理性)」的双重机制,平衡格式规范性与规划逻辑性。

此外,通过异步奖励计算架构,将 GRM 推理与 RL 训练解耦,实现约 20% 的训练加速,且无性能损失。

表 1:不同数据混合配置下冷启动监督微调(SFT)性能评估(所有数值单位为 %)表 1:不同数据混合配置下冷启动监督微调(SFT)性能评估(所有数值单位为 %)

评估体系:三维基准与开源环境构建真实能力校验

为全面、客观验证模型性能,EmbodiedBrain 构建了包含通用多模态能力、空间感知、端到端仿真规划的三维评估体系,覆盖 14 项主流基准测试,彻底解决传统离线评估的局限性。

多维度基准设计与性能表现

1. 通用多模态能力评估(5 项基准):采用 MM-IFEval(指令遵循)、MMMU(跨学科推理)、MMStar(多模态综合推理)、AI2D(图表理解)、OCRBench(图像文本推理),全面检验模型的基础多模态能力。实验结果(表 2)显示,EmbodiedBrain-32B 在 MM-IFEval 达 46.98%,较 Qwen2.5-VL 32B(46.66%)与 RoboBrain 2.0 32B(39.75%)显著领先;在 MMStar 达 65.80%,超越同类模型,证明其在保留通用能力的同时,实现了具身场景的专项提升。

表 2:EmbodiedBrain 与先前模型在 14 个不同基准测试上的性能对比。每个基准测试组中最高分数以粗体突出显示。

2. 空间感知能力评估(4 项基准):通过 BLINK(空间关系理解)、CV-Bench(3D 物体属性推理)、EmbSpatial(第一视角空间关系)、ERQA(端到端多模态推理),检验模型对三维空间的理解能力。表 2 数据显示,EmbodiedBrain-7B 在 BLINK 达 88.11%,较 RoboBrain 2.0 7B(62.94%)提升 39.99%;32B 版本在 CV-Bench 达 83.64%,EmbSpatial 达 77.03%,均为所有测试模型最高,印证了其空间推理能力的优越性。

3. 任务规划能力评估(5 项基准):涵盖 EgoPlan-Bench、EgoPlan-Bench2、EgoThink 等公开基准,以及自主设计的 Internal Planning 基准与 VLM-PlanSim-99 仿真基准。其中,Internal Planning 基准针对长程规划能力,采用「匈牙利算法计算动作匹配度 + LCS 算法计算顺序一致性」评估方法,EmbodiedBrain-32B 的 F1 分数达 90.50%,较 Qwen2.5-VL 32B(28.30%)提升超 2 倍。此外,为了拒绝「刷榜式」的虚高分数,团队提出并开源了包含 99 个手动验证家庭任务的 VLM-PlanSim-99 仿真基准,在最考验「真功夫」的端到端仿真规划中,EmbodiedBrain-32B 斩获了 46.46% 的成功率,几乎是 Qwen2.5-VL 32B (25.25%) 和 RoboBrain 2.0 32B (24.24%) 的两倍。这一数据有力证明了:EmbodiedBrain 不是一个只会做选择题的模型,而是一个真正能干活的具身大脑。

图 5:EmbodiedBrain 的空间推理示例图 5:EmbodiedBrain 的空间推理示例

典型案例验证:从空间推理到端到端执行

在空间推理任务中(图 5),EmbodiedBrain 能够精准回答「物体相对位置」、「目标物体计数」、「空间关系判断」等问题,例如正确识别「车门在左侧」、「手中物品为鸡蛋」,展现出对复杂空间线索的整合能力。 

图 6:EmbodiedBrain 为「在水槽清洗苹果后将其放入冰箱」任务生成的成功 11 步规划定性示例。该模型正确识别并执行了两个连续子目标:(1) 步骤 1-6:获取物体、将其置于水槽并清洗;(2) 步骤 7-11:拿起清洁后的物体并将其存放在冰箱中。

在任务规划案例中,针对「烘焙糕点设置计时器」任务, EmbodiedBrain 正确选择「安装计时器」动作,而 RoboBrain 2.0 与 Qwen2.5-VL 分别选择错误的「搅拌面糊」、「预热烤箱」;针对「清洗碗具并冷藏」任务,模型生成 11 步完整执行序列(图 6),从「导航至碗具→放入水槽→清洗→导航至冰箱→存放」,每一步均符合物理逻辑与任务流程,实现端到端闭环。

开源共享与未来展望:赋能具身智能生态发展

作为面向全球科研社区的开放成果,中兴团队已将 EmbodiedBrain 的全部训练数据、模型权重与评估方法开源(https://zterobot.github.io/EmbodiedBrain.github.io),同时开源了创新的 VLM-PlanSim-99 仿真环境,为具身智能领域提供了统一的基准平台与工具链,有效解决了现有研究中「数据封闭」、「评估标准不一」的痛点。

未来,EmbodiedBrain 将重点推进两大方向:一是拓展至多智能体协同任务,探索多智能体间的分工、通信与协作机制;二是研究领域随机化技术,提升模型在不同真实机器人平台(如家庭服务机器人、工业协作机器人)上的适配性,推动具身智能从仿真环境走向实际应用。

中兴星云大脑团队以 EmbodiedBrain 为契机,不仅在学术层面突破了具身智能任务规划的性能边界,更在产业层面为 AGI 落地物理世界提供了可复用的技术框架。

解码器指令中兴
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片