弯道超车？国产具身，千小时人类数据激发智能涌现|机器人|智能|硅谷_新浪科技

编辑｜张倩

导读：近日，位于中关村的深度机智全球首次使用全新范式——人类学习，在多个国际 Benchmark 上取得 SOTA，史无前例地使用全新架构（仅使用人类第一视角数据、零真机数据）击败 Physical Intelligence 和英伟达等头部巨头二十多个百分点，并在两会开幕首日被央视报道。而这一全新架构的诞生，得益于团队在人类学习路线上一年多的全力积累。无独有偶，近期英伟达也发布了人类学习的初步尝试。

当国内具身智能领域还在争论真机数据和仿真数据哪个更有效时，硅谷却在悄悄达成另一项共识。

农历新年刚过，英伟达就发布了一项重磅成果 ——EgoScale。这是一个将人类灵巧操作直接「传授」给机器人的全新框架。

研究人员给大模型喂了超过 2 万小时的人类第一视角视频。结果证明：只要不断增加人类的示范数据，机器人的操作能力就能稳步提升。论文的第一作者更是直接点破了这层窗户纸：「提升机器人灵巧性的关键，在于堆更多的人类数据，而不是机器人真机数据。」

这不禁让人想起英伟达年前的另一项王炸 ——DreamDojo。那个用 4.4 万小时人类第一视角视频训练出来的模型，展现出了极强的「举一反三」能力。即使面对完全陌生的物体和环境，机器人也能像熟练工一样自如应对。原因其实很简单：人类见过它们，而模型学习了人类的视角。

其实，在硅谷，这些发现并不令人意外，因为巨头们对「人类第一视角数据」的押注早已开始。大家所熟知的公司 —— 特斯拉、Figure、Physical Intelligence、Generalist AI、1X、BuildAI、Skild AI—— 有的明确表示正在大规模采集这类数据构建基座，有的即使没有明确说明，也透露出自己的模型采用了人类数据。去年下半年开始，这股风潮就已成势。这次英伟达，也不甘心落后。

人类第一视角数据示例

这种「默契」的背后，藏着这些前沿公司对于机器人「智能」根源的核心判断 —— 真正的机器人智能始于对「物理常识」的理解。

Generalist AI 是这一判断最激进的践行者：这家由前 Google DeepMind 核心科学家 Andy Zeng 参与创立的公司，凭借 27 万小时人类数据逼近机器人领域 Scaling Law，他们甚至将物理常识称为机器人学中的「暗物质」—— 其特点就是无处不在但又难以捕捉，而人类第一视角数据为物理常识的习得提供了天然的丰富材料。如果不先习得物理常识，具身模型很容易陷入「轨迹拟合」的死胡同，采集再多真机轨迹也很难泛化，毕竟纯模仿轨迹的机器人没有内化「为什么这样做」的物理直觉。

不过，这些讨论在国内似乎还没有引起足够重视，更不用提达成共识。这也是为什么，能和硅谷同频共振，甚至先于硅谷独立洞察并利用认知时间差抢跑的企业更加值得关注。

成立于 2025 上半年的深度机智便是其中最具代表性的一个。这家公司由北京中关村学院导师、中关村人工智能研究院（合称「中关村两院」）研究员陈凯创立，是这一国家级人工智能教育科研共同体孵化的首家公司。

深度机智创始团队早在 2024 年底就由智能眼镜的高速发展，敏锐觉察到人类第一视角数据即将迎来爆发，而此类数据蕴含的人类与物理世界交互的常识，是具身智能走向通用的破局关键。因此，他们毅然将筹码押在从「人类第一视角数据」解码「物理常识」，从而找到具身大模型的 scaling law。如今，他们已经成为国内最早布局这一赛道同时也跑得最快的公司。

而这种路线选择上的前瞻性，本质上源于团队对大模型通用智能的深刻认知，以及对如何真正将大模型的技术哲学应用在机器人上的长期探索。基于这种认知，深度机智已经搭建出一套涵盖数据、架构、算法的全栈技术矩阵。

这套矩阵具体怎么运转？我们和陈凯博士聊了聊。

要做的不是「通用具身智能」

而是「具身通用智能」

对机器人研究有所了解的读者想必都听过一个词 —— 莫拉维克悖论。它指的是，对人类来说易如反掌的事情，对机器人来说却难如登天，比如简单地做个家务。Generalist AI 等公司认为，这一现象之所以存在，本质上是因为机器人还没有捕获到一种极度稀缺的「暗物质」—— 物理常识，也就是对力、摩擦、柔度和不确定性等物理属性的直觉。

然而，审视国内具身智能的发展，目前的竞争焦点却在另一个维度 —— 使用大模型拟合真机或者仿真得到的轨迹数据，并期望通过轨迹数据的堆积达到「通用具身智能」，也就是我们目前常说的 VLA 路线。在这种思路的主导下，行业普遍的做法是：给大模型加上动作模块，然后疯狂投喂机器人的末端轨迹数据，让模型去拟合「观测→动作」的映射。

陈凯博士指出，在基座模型物理智能水平低下的情况下，这种「端到端拟合轨迹」的做法，在数据使用上是非常低效的，而且可学到的上限很低。因为这就像训练一匹智力水平不足的骡马，无论重复多少遍都只能执行有限的指令。所以很多模型背了几万小时轨迹，泛化能力依然僵化。

更棘手的是，单纯的动作拟合不仅无法产生对物理规律的直觉，还会破坏大模型本身强大的通用理解能力，导致严重的灾难性遗忘。这一现象在很多报告中都可以看到，违背了大家利用 VLM 强大泛化能力的初衷 —— 最突出的表现就是，大模型中常见的长程规划和推理能力，在当前的大多数 VLA 模型中大幅衰减，反而成了少数几家能拿得出手的宣传亮点。这无不凸显出当前「拟合轨迹」为主的训练哲学的根本问题。

既然拟合轨迹学不到常识，具身智能到底该怎么走？深度机智之所以能在赛道上抢跑，正是因为他们在底层路线上完成了认知视角的翻转：他们要做的不是「通用具身智能」，而是「具身通用智能」。

这一语序调换绝非文字游戏，而是训练逻辑的彻底重构。在深度机智的理念中，智能是原生的，具身只是其在三维世界的表现形式。真正的大模型下一阶段，机器人应当首先具备思考、搜索、交流等通用能力，并且深刻理解物理世界的运作规律，最后才是在现实中去执行任务。

这就是深度机智最核心的技术策略：「Understanding first, action next」（先理解，后执行）」。

这种哲学，完美地回应了 Generalist AI 提出的「物理常识」难题。但在哪里能找到包含海量物理常识的教材？在深度机智看来，人类第一视角数据，正是那把解锁物理常识的完美钥匙。

陈凯指出，他们和 Generalist AI 想法类似：既然人类和机器人处于同一个受固定定律控制的物理世界，那么人类完全可以被看作是一种「特殊的机器人本体」。人类用多大的力气拿起鸡蛋而不捏碎，用什么角度推开半掩的门 —— 这些由人类作为「特殊本体」产生的第一视角感知运动经验，天然蕴含着极其丰富的物理常识。

然而，如果仅仅使用人类动作的轨迹进行训练，而不是提取其中的物理交互知识，那就无异于买椟还珠。为了克服这一问题，深度机智在成立短短几个月内，就构建了复杂的数据增强管线，并且仍然在快速迭代中，用以高效榨取数据中的物理常识。

利用这种物理常识被榨取过的增强数据去「喂养」基座模型，深度机智跳出了轨迹拟合的陷阱，换来了数据效率的质变：用千小时规模人类第一视角视频，就能超过别人用几万小时真机数据才能达到的泛化性。同时，他们也在模型架构和算法方面进一步优化，以确保大模型在长出「具身肌肉」的同时，绝不丧失原有的「通用灵魂」。

一套开始显现复利效应的技术组合

路线确定之后，深度机智面临一些更实际的挑战：数据怎么转译、架构怎么设计、训练目标怎么设定，每一步都决定着「先理解，后执行」能否跑通。

过去一年，团队围绕这三个环节搭建出一套全栈矩阵，并用三组对照实验验证了路线的有效性：他们只加人类第一视角数据，验证数据方法论；只改架构，验证训练方法论；只调算法，验证对齐方法论。最后，这些方法汇总到一起，他们训练出了成功率远超行业标杆的 SOTA 模型。

PhysBrain：千小时人类视频 PK 数万小时真机

人类第一视角视频是个天然的数据富矿，它能大规模记录日常生活中的长期任务、人与物体的交互细节，以及手部的精细操作动态。但这里有个关键卡点：这些视频里确实藏着「怎么做」的规划逻辑和物理交互规律，但都是隐性的，机器人直接看可能看不懂。

所以，深度机智的当务之急，就是建立一个翻译管道，把这些视频中的隐性经验，提取成结构化的监督信号 —— 比如任务怎么拆解、关键状态是什么、手该怎么动、物体之间有什么约束、时空关系是怎样的。

Egocentric2Embodiment 翻译管道便是为此提出来的，其核心是把人类第一视角视频「转码」成机器人能学的结构化教材：通过多层次拆解任务规划、关键状态、手部动作和物理约束，确保时序逻辑连贯且每个判断都有画面证据支撑，最终输出带标准答案的 VQA 监督数据（就像一份带标准答案的习题集），确保机器人「知其然也知其所以然」，而不是瞎猜。

利用这套方法，他们构建了数据集 E2E-3M，并用该数据集训练了一个具身大脑 ——PhysBrain。在完全未出现在训练集中的 SimplerEnv 四个操作任务上，PhysBrain（8B 版本）以 67.4% 的平均成功率力压行业标杆、Physical Intelligence 的 Pi0.5，领先优势达 10%。

要知道，PhysBrain 的微调数据仅为千小时的纯人类视角视频（即 E2E-3M 的体量）和部分通用 VQA 数据，不含机器人轨迹数据，就让模型掌握了空间结构和物体动力学特征，展现了良好的泛化性；相比之下，Pi0.5 则是用数万小时真机轨迹数据「堆」出来的。这有力地证明了：一个深刻理解物理世界规律的「聪明大脑」，其学习效率与泛化上限远超轨迹拟合。

更令人惊叹的是，PhysBrain 在仅学习「成功案例」的情况下，竟自发涌现出了灵活策略能力和自动纠错能力。

在 SimplerEnv 的胡萝卜抓取任务中，模型接到的指令只是把胡萝卜放进盘子里。第一次夹取失败后，它并没有机械地重复同一个抓取动作，因为模型发现夹爪已经碰到了胡萝卜，于是顺势改为用夹子把胡萝卜往盘子方向推，一次推不进去，又加大力度重新推了一次。后来，发现这种方式依然无效，它又主动切换策略，重新调整姿态去抓取。要知道，「推」这个动作是没有包含在模型训练数据里的，它也没有看到过失败轨迹示范，这种表现更像是一种对物理交互的直觉式理解。

之前，这种「涌现」现象几乎只有 Physical Intelligence 和 Generalist AI 提到过，但前者将其归因于大量「失败轨迹」数据。相比之下，PhysBrain 仅凭对人类交互逻辑的底层理解，便实现了从「僵化执行」到「灵活应变」的本质跨越。

TwinBrainVLA：给机器人安上「不降智」的双脑

PhysBrain 证明了人类第一视角视频能喂出「聪明大脑」，但后续的优化问题随之而来：一个模型既要保持开放世界的通用理解，又要输出毫米级的精确动作，这两个目标在优化时其实是打架的。这是 VLA 领域的经典难题：微调学动作，会遗忘通用知识；保通用知识，又学不会精细操作。

为了破解这个「左右互搏」的困境，深度机智创新性地设计了「左右脑」同构架构 ——TwinBrainVLA。具体来说，他们首先引入一个同构但被冻结的 VLM 模块作为「左脑」，保持其开放世界理解能力不变；同时又引入一个可训练的「右脑」网络，专门处理机器人本体感知状态和低级动作策略。关键在于「左右脑」之间的信息交互 —— 通过他们提出的非对称混合 Transformer 机制（AsyMoT），右脑可以动态查询左脑的语义知识，但左脑的参数不会被下游任务污染。

这种设计的精妙之处在于：知识迁移而不遗忘。右脑学会动作控制时，左脑依然保有识别「易碎物品」这样的常识知识及推断约束条件的能力；当机器人遇到新场景，左右脑协同工作，既不会变成「只会抓杯子不懂杯子会碎」的纯执行机器，也不会停留在「知道要轻放但手不听使唤」的纸上谈兵阶段。

实验阶段，深度机智在完全未出现在训练集中的 SimplerEnv 四个操作任务上验证了 TwinBrainVLA 的有效性：在数据量远远小于 Pi0.5 的前提下，TwinBrainVLA 将原生的 Qwen3-VL-4B 能力有效迁移到机器人控制任务上，在 480 次独立测试中的平均成功率达到 64.5%，远超使用了数万小时轨迹数据的 Pi0.5（57.1%）。它证明了保住大模型的底子，本身就能换来更高的性能上限。

LangForce：强迫大脑「读懂指令」再动手

数据策略 work，架构也跑通了，但具体的训练过程中，深度机智还发现了一些算法上的 bug，「视觉捷径」就是其中之一。

这个问题是说，模型表现出一种类似「偷懒」的现象：由于训练数据中指令与画面高度相关，机器人往往直接跳过语言指令，只盯着视觉画面做动作（比如看见碗和抽屉就执行「把碗放进抽屉」）。一旦指令稍作改变（比如改为「把碗放到炉灶上」），哪怕画面再清晰，模型也会因为忽略指令而彻底翻车。

为了解决这个问题，深度机智改进了算法，强迫模型回答「这个动作比单纯看画面多提供了什么信息」。他们设计了一个双分支架构 —— 一个分支只能看画面生成动作，另一个分支能同时看到画面和指令，然后通过最大化两者的差异（即条件互信息），让模型被迫「解释」为什么要执行这个动作。只有当动作真正体现了语言指令的语义时，模型才能获得奖励；反之，如果动作仅靠画面就能预测，模型就会受到惩罚。这相当于在训练过程中给模型设置了一个「防偷懒」机制，确保它不能把语言指令当摆设。

这个小小的改进带来的增益非常明显：在不使用任何机器人真机轨迹数据进行预训练的情况下，以原生 Qwen-3-VL 为主干进行微调的模型在 SimplerEnv 的四个任务上实现了 66.5% 的成功率，领先 Pi0.5 将近 10 个百分点。

这一结果表明，逼模型真正理解语言指令，而不是过拟合训练数据里的表面特征，是打破泛化瓶颈的关键。

当三条路径汇合，能力曲线开始抬升

前面三个「控制变量」实验表明，深度机智在数据、架构、算法层面提出的各个创新都能带来显著的增益，但真正的质变发生在它们「三合一」的时刻。

最近，深度机智在训练的新模型中融合了上述三种方法，发现新训练出的模型（即将发布的 PhysBrain1.0 ）在 SimplerEnv 测试中直接跑出了 79.8% 的平均成功率，超越了行业标杆 Pi0.5 达 22.7%，也超过了之前成绩最好的 Xiaomi-Robotics-0（79.2%），达到 SOTA。

这种领先优势在其他具有挑战性的场景中得到了进一步验证。在 RoboCasa 上，PhysBrain1.0 仅使用千小时人类第一视角数据做 VLM 增强，就达到 58.1% 成功率，拿下 SOTA。这个测试强调多阶段家庭场景操作，考察的是长程规划与稳定执行能力，结果说明模型已具备真实场景落地的潜力。

同时，深度机智还观察到，虽然模型使用的是人类第一视角视频和少量 ALOHA 机器人轨迹数据进行训练，但在另一个机器人真机平台 ——Franka 上，它也能实现接近 100% 的抓取成功率，这说明模型了具备业界少见的跨本体泛化能力。

从基础操作到复杂协同，再到泛化迁移，PhysBrain1.0 基本实现了全线领先。在 3 月底的中关村论坛上，PhysBrain1.0 将正式亮相，相关成果也将开源。

当能力上限被抬高

竞争才真正开始

如果把视线拉回到整个行业，就会发现一个颇为微妙的错位。

一边是机器人本体快速迭代，关节更灵活，控制更精准；另一边，大脑却始终被数据瓶颈卡住。仿真派和真机派争论不休，但两条路线都绕不开同一个隐忧：当模型只能在机器人的闭环视角里反复拟合轨迹，多样性和信息密度都极为有限，很难真正长出对物理世界的直觉。

深度机智的思路，更像是大模型出现后机器翻译的那次代际跃迁。早期翻译系统靠规则和对齐表修修补补，效果始终有限；直到模型开始掌握语言的底层结构，质量才出现质变。具身智能也一样，与其在「观测 → 动作」的映射上死磕，不如先让模型通过人类第一视角视频习得物理世界的「通用语法」。当常识内化之后，执行反而成为理解的自然外显，数据效率因此出现数量级的提升。

这种认知时差带来的先发优势，正在沉淀为一整套技术闭环：从人类视频的结构化转译，到左右脑异构架构，再到针对语言与动作对齐的训练算法，彼此咬合。结果不只是单点指标领先，而是一条成本结构更优、规模化门槛更低的路径。高数据效率叠加对物理常识的系统性建模，使得后来者很难仅靠堆算力或堆真机轨迹在短期内追平。

接下来，深度机智计划在 2026 年上半年把人类第一视角数据规模推进到百万小时量级。在这个数量级上，问题或许不再是「机器人能不能完成某个任务」，而是物理常识的 Scaling Law 能否完全显现。