突破具身智能任务规划边界，刷新具身大脑多榜单SOTA，中兴EmbodiedBrain模型让具身大脑学会「复杂规划」|解码器|指令|中兴_新浪科技

在人工通用智能（AGI）的探索征程中，具身智能 Agents 作为连接数字认知与物理世界的关键载体，其核心价值在于能够在真实物理环境中实现稳健的空间感知、高效的任务规划与自适应的执行闭环。

然而，当前主流大语言模型（LLMs）与多模态大语言模型（MLLMs）在具身任务场景中，普遍面临三大核心瓶颈：一是模型设计与智能体实际需求存在显著脱节，难以适配物理世界的动力学特性、传感器噪声与动态变化；二是实时延迟与任务性能间存在不可调和的权衡，轻量化模型虽能满足实时性需求，却在指令遵循、空间感知等关键能力上表现薄弱；三是现有评估依赖非真实的离线指标，无法全面反映模型在复杂真实场景中的鲁棒性与泛化能力。

为此，中兴星云大脑团队（ZTE NebulaBrain Team）重磅推出具身视觉 - 语言基础模型 EmbodiedBrain，以 7B 和 32B 两种参数规格构建了涵盖数据架构、训练策略、评估体系的全流程创新框架，为下一代通用具身智能体的发展提供了突破性解决方案。

Arxiv: https://arxiv.org/abs/2510.20578
WebPage: https://zterobot.github.io/EmbodiedBrain.github.io/
Code: https://github.com/ZTERobot/EmbodiedBrain1.0/
Models:https://huggingface.co/ZTE-AIM/EmbodiedBrain-7B
https://huggingface.co/ZTE-AIM/EmbodiedBrain-32B

架构创新：模块化设计实现感知 - 推理 - 行动一体化闭环

EmbodiedBrain 以 Qwen2.5-VL 为基础框架，创新性地采用模块化编码器 - 解码器架构，成功打通了「感知 - 推理 - 行动」的全链路，实现了三大核心能力的深度协同（图 1）。

图 1 EmbodiedBrain 的架构：该模型处理多种多模态输入，包括任意分辨率的图像、长视频序列以及复杂的语言指令。视觉输入由视觉编码器和 MLP 投影器处理，文本输入则进行分词处理。所有输入被送入核心大语言模型（LLM）解码器，该解码器执行深度推理并生成结构化输出。最终输出包含三部分：自然语言响应（）、分步规划（）和可执行动作序列（），从而实现对具身环境的直接控制与交互。

该架构的三大核心组件各司其职且高效联动：

1. 原生分辨率视觉 Transformer（ViT）：作为视觉编码器，其采用窗口注意力机制，能够在处理原生分辨率图像时兼顾效率与细节捕捉；同时引入二维旋转位置编码（2D Rotary Positional Embedding, ROPE），精准保留图像中的空间几何关系，为后续空间推理提供扎实的视觉基础。

2. 轻量级 MLP 视觉 - 语言融合器：承担视觉特征与语言嵌入空间的「桥梁」作用，通过压缩视觉特征维度、对齐模态语义分布，确保视觉信息与语言指令能够在统一的表示空间中高效交互，避免多模态信息割裂导致的理解偏差。

3. 基于 Qwen2.5 初始化的解码器：作为模型的「认知核心」，采用仅解码器结构，引入时间对齐的多模态 ROPE（Multimodal RoPE Aligned to Absolute Time）技术，显著强化对长视频序列的时序理解能力，能够处理动态场景中的时间依赖关系。

从工作流程来看，视觉输入首先经视觉编码器与 MLP 融合器处理，转化为与语言兼容的特征；文本指令经分词后与视觉特征共同构成多模态 token 序列，输入解码器；最终解码器输出包含三部分的结构化结果：字段提供自然语言交互反馈，字段将任务分解为 [Navigate]（导航）与 [Manipulate]（操作）两类可解释步骤，字段以二元 / 三元组格式生成直接调用智能体 API 的可执行动作。

以「从冰箱取番茄并加热」任务为例（图 1），模型可生成「导航至冰箱→打开冰箱→取出番茄→导航至微波炉→加热番茄」的清晰规划，以及对应的 [Navigate, Fridge]、[Manipulate, Open Fridge] 等动作序列，完美实现从语义理解到物理执行的闭环。

数据与训练：Agent 对齐设计与强化学习突破长程规划瓶颈

数据架构：面向具身智能的结构化设计与多源筛选

为解决模型与具身智能体需求脱节的根本问题，EmbodiedBrain 创新设计了规划中心型结构化数据格式（图 2、图 3），该格式严格遵循「用户查询 - 模型响应 - 显式规划 - 底层动作」的层级逻辑，确保高层任务目标与底层执行步骤的精准对齐。

以「将脏衣服放入洗衣机」任务为例（图 2），字段明确交互意图，字段分解为 5 个导航与操作步骤，字段以 [Search, Dirty clothes]、[Navigate, Basket] 等标准化格式生成动作，既满足机器可解析性，又保留人类可解释性。

图 2: EmbodiedBrain 训练数据概览

训练数据涵盖四大核心类别，通过多阶段筛选策略保障质量：

1. 通用多模态指令数据：包括 tulu-3-sft-personas-instruction-following（10K 样本，强化指令遵循与约束满足）、UltraIF-sft-175k（20K 样本，含单轮 / 多轮对话，提升长程记忆）、MM-IFInstruct-23k（22K 样本，结合图像接地对话，强化多模态 grounding），为模型奠定通用指令理解基础。

2. 空间推理数据：基于 EmbSpatial 与 pixmo-points 数据集，通过「基线模型生成验证 + GPT-4o 二次过滤」的两阶段拒绝采样（图 2），筛选出 50K 空间推理样本（含目标查询、物体关系推理）与 60K 视觉定位样本（含计数、坐标标注），强化模型对三维空间的理解能力。

3. 任务规划数据：基于 Alfred 数据集（AI2-THOR 环境），通过解析 PDDL 文件生成子任务序列、捕获全景图像与物体边界框、动态更新物体位置等流程（图 3），构建空间接地的规划数据集，确保规划步骤与物理环境适配。

4. 视频理解数据：融合 Ego4D、Epic-Kitchens、EgoPlan-IT 三大数据集，生成「回顾性理解」（如「已完成何种动作」）与「前瞻性规划」（如「下一步应执行何种动作」）两类 QA 样本，并通过 Qwen2.5-VL-72B 过滤确保数据质量，提升模型对动态场景的时序推理能力。

图 3 监督微调（SFT）阶段的整体数据分布及各动作的规划数据分布

在数据配比上，通过对比 5 种不同数据混合方案（表 1），发现「通用 MLLM 数据 52K: 空间推理数据 130K: 任务规划数据 51.5K: 视频理解数据 20K」的配比（52:130:51.5:20）效果最优 —— 该配比在空间推理平均得分达 70.27%（仅比最高值低 0.6%），同时在任务规划平均得分达 64.64%（为所有方案最高），尤其在执行规划（EP1/EP2）与目标导向推理（EgT）子任务上提升显著，为后续训练奠定了均衡的数据基础。

训练策略：两阶段范式与 Step-GRPO 创新突破

EmbodiedBrain 采用「监督微调（SFT）+ 强化学习（RL）」的两阶段训练策略，层层递进优化模型能力：

图 4 所提出的 Step-GRPO 的详细流程

Stage 1：多模态拒绝采样 SFT：核心目标是提升模型的基础感知与推理能力。针对数据噪声问题，设计 “粗粒度过滤 + 细粒度验证” 的两阶段拒绝采样：首先用 Qwen2.5-VL-7B 生成 8 个候选响应，通过 Qwen3-30B-A3B-Instruct-2507 筛选掉明显错误样本；再用 Qwen2.5-VL-72B 生成 “ oracle 答案”，与原始标签对比，剔除标签错误样本。该过程有效去除数据噪声，确保 SFT 阶段学习信号的可靠性。

Stage 2：Step-GRPO 多任务强化学习：如何让模型在没有人类手把手教学的情况下，学会处理复杂的长序列任务？EmbodiedBrain 给出的答案是 Step-GRPO（分步增强的组相对策略优化）。类似于 DeepSeek-R1 等推理模型背后的强化学习思路，Step-GRPO 引入了「引导先验」机制。这就好比老师在教学生解难题时，不是直接给答案，而是给出关键的中间步骤提示。这种机制将复杂的长任务拆解为可逐步优化的子问题，配合异步奖励计算架构，不仅让模型学会了「三思而后行」，还实现了约 20% 的训练加速。

聚焦长程任务规划与输出格式标准化。针对传统强化学习在长序列规划中稳定性差、收敛慢的问题，创新提出 Step-Augumented Group Relative Policy Optimization（Step-GRPO）方法（图 4）：在任务规划时，随机引入 1-3 步前置规划步骤作为「引导先验」（Guided Precursors），将复杂长任务分解为可逐步优化的子问题。例如在「寻找画笔」任务中，通过注入「导航至设备架」、「定位画笔」等前置步骤，帮助模型建立步骤间的依赖关系，提升规划连贯性。

同时，为提升训练效率与奖励可靠性，EmbodiedBrain 设计了多维度奖励系统：

1. 指令遵循任务：基于答案与真值的匹配度计算正确性奖励；

2. 视觉感知任务：接地与检测任务采用加权 IoU 评分，计数任务采用数值匹配度；

3. 空间感知任务：区分选择题与描述题，结合语义一致性与简洁性评分；

4. 任务规划任务：采用「规则奖励（0-1 分，评估 XML 格式完整性、动作集合规性）+GRM 奖励（0-1 分，Qwen3-30B-A3B 评估规划合理性）」的双重机制，平衡格式规范性与规划逻辑性。

此外，通过异步奖励计算架构，将 GRM 推理与 RL 训练解耦，实现约 20% 的训练加速，且无性能损失。

表 1：不同数据混合配置下冷启动监督微调（SFT）性能评估（所有数值单位为 %）

评估体系：三维基准与开源环境构建真实能力校验

为全面、客观验证模型性能，EmbodiedBrain 构建了包含通用多模态能力、空间感知、端到端仿真规划的三维评估体系，覆盖 14 项主流基准测试，彻底解决传统离线评估的局限性。

多维度基准设计与性能表现

1. 通用多模态能力评估（5 项基准）：采用 MM-IFEval（指令遵循）、MMMU（跨学科推理）、MMStar（多模态综合推理）、AI2D（图表理解）、OCRBench（图像文本推理），全面检验模型的基础多模态能力。实验结果（表 2）显示，EmbodiedBrain-32B 在 MM-IFEval 达 46.98%，较 Qwen2.5-VL 32B（46.66%）与 RoboBrain 2.0 32B（39.75%）显著领先；在 MMStar 达 65.80%，超越同类模型，证明其在保留通用能力的同时，实现了具身场景的专项提升。

表 2：EmbodiedBrain 与先前模型在 14 个不同基准测试上的性能对比。每个基准测试组中最高分数以粗体突出显示。

2. 空间感知能力评估（4 项基准）：通过 BLINK（空间关系理解）、CV-Bench（3D 物体属性推理）、EmbSpatial（第一视角空间关系）、ERQA（端到端多模态推理），检验模型对三维空间的理解能力。表 2 数据显示，EmbodiedBrain-7B 在 BLINK 达 88.11%，较 RoboBrain 2.0 7B（62.94%）提升 39.99%；32B 版本在 CV-Bench 达 83.64%，EmbSpatial 达 77.03%，均为所有测试模型最高，印证了其空间推理能力的优越性。

3. 任务规划能力评估（5 项基准）：涵盖 EgoPlan-Bench、EgoPlan-Bench2、EgoThink 等公开基准，以及自主设计的 Internal Planning 基准与 VLM-PlanSim-99 仿真基准。其中，Internal Planning 基准针对长程规划能力，采用「匈牙利算法计算动作匹配度 + LCS 算法计算顺序一致性」评估方法，EmbodiedBrain-32B 的 F1 分数达 90.50%，较 Qwen2.5-VL 32B（28.30%）提升超 2 倍。此外，为了拒绝「刷榜式」的虚高分数，团队提出并开源了包含 99 个手动验证家庭任务的 VLM-PlanSim-99 仿真基准，在最考验「真功夫」的端到端仿真规划中，EmbodiedBrain-32B 斩获了 46.46% 的成功率，几乎是 Qwen2.5-VL 32B (25.25%) 和 RoboBrain 2.0 32B (24.24%) 的两倍。这一数据有力证明了：EmbodiedBrain 不是一个只会做选择题的模型，而是一个真正能干活的具身大脑。

图 5：EmbodiedBrain 的空间推理示例

典型案例验证：从空间推理到端到端执行

在空间推理任务中（图 5），EmbodiedBrain 能够精准回答「物体相对位置」、「目标物体计数」、「空间关系判断」等问题，例如正确识别「车门在左侧」、「手中物品为鸡蛋」，展现出对复杂空间线索的整合能力。

图 6：EmbodiedBrain 为「在水槽清洗苹果后将其放入冰箱」任务生成的成功 11 步规划定性示例。该模型正确识别并执行了两个连续子目标：(1) 步骤 1-6：获取物体、将其置于水槽并清洗；(2) 步骤 7-11：拿起清洁后的物体并将其存放在冰箱中。

在任务规划案例中，针对「烘焙糕点设置计时器」任务， EmbodiedBrain 正确选择「安装计时器」动作，而 RoboBrain 2.0 与 Qwen2.5-VL 分别选择错误的「搅拌面糊」、「预热烤箱」；针对「清洗碗具并冷藏」任务，模型生成 11 步完整执行序列（图 6），从「导航至碗具→放入水槽→清洗→导航至冰箱→存放」，每一步均符合物理逻辑与任务流程，实现端到端闭环。

开源共享与未来展望：赋能具身智能生态发展

作为面向全球科研社区的开放成果，中兴团队已将 EmbodiedBrain 的全部训练数据、模型权重与评估方法开源（https://zterobot.github.io/EmbodiedBrain.github.io），同时开源了创新的 VLM-PlanSim-99 仿真环境，为具身智能领域提供了统一的基准平台与工具链，有效解决了现有研究中「数据封闭」、「评估标准不一」的痛点。

未来，EmbodiedBrain 将重点推进两大方向：一是拓展至多智能体协同任务，探索多智能体间的分工、通信与协作机制；二是研究领域随机化技术，提升模型在不同真实机器人平台（如家庭服务机器人、工业协作机器人）上的适配性，推动具身智能从仿真环境走向实际应用。

中兴星云大脑团队以 EmbodiedBrain 为契机，不仅在学术层面突破了具身智能任务规划的性能边界，更在产业层面为 AGI 落地物理世界提供了可复用的技术框架。