弯道超车?国产具身,千小时人类数据激发智能涌现

弯道超车?国产具身,千小时人类数据激发智能涌现
2026年03月05日 12:12 机器之心Pro

编辑|张倩

读:近日,位于中关村的深度机智全球首次使用全新范式——人类学习,在多个国际 Benchmark 上取得 SOTA,史无前例地使用全新架构(仅使用人类第一视角数据、零真机数据)击败 Physical Intelligence 和英伟达等头部巨头二十多个百分点并在两会开幕首日被央视报道。而这一全新架构的诞生,得益于团队在人类学习路线上一年多的全力积累。无独有偶,近期英伟达也发布了人类学习的初步尝试。

当国内具身智能领域还在争论真机数据和仿真数据哪个更有效时,硅谷却在悄悄达成另一项共识。

农历新年刚过,英伟达就发布了一项重磅成果 ——EgoScale。这是一个将人类灵巧操作直接「传授」给机器人的全新框架。

研究人员给大模型喂了超过 2 万小时的人类第一视角视频。结果证明:只要不断增加人类的示范数据,机器人的操作能力就能稳步提升。论文的第一作者更是直接点破了这层窗户纸:「提升机器人灵巧性的关键,在于堆更多的人类数据,而不是机器人真机数据。

这不禁让人想起英伟达年前的另一项王炸 ——DreamDojo。那个用 4.4 万小时人类第一视角视频训练出来的模型,展现出了极强的「举一反三」能力。即使面对完全陌生的物体和环境,机器人也能像熟练工一样自如应对。原因其实很简单:人类见过它们,而模型学习了人类的视角。

其实,在硅谷,这些发现并不令人意外,因为巨头们对「人类第一视角数据」的押注早已开始。大家所熟知的公司 —— 特斯拉、Figure、Physical Intelligence、Generalist AI、1X、BuildAI、Skild AI—— 有的明确表示正在大规模采集这类数据构建基座,有的即使没有明确说明,也透露出自己的模型采用了人类数据。去年下半年开始,这股风潮就已成势。这次英伟达,也不甘心落后。

人类第一视角数据示例人类第一视角数据示例

这种「默契」的背后,藏着这些前沿公司对于机器人「智能」根源的核心判断 —— 真正的机器人智能始于对「物理常识」的理解

Generalist AI 是这一判断最激进的践行者:这家由前 Google DeepMind 核心科学家 Andy Zeng 参与创立的公司,凭借 27 万小时人类数据逼近机器人领域 Scaling Law,他们甚至将物理常识称为机器人学中的「暗物质」—— 其特点就是无处不在但又难以捕捉,而人类第一视角数据为物理常识的习得提供了天然的丰富材料。如果不先习得物理常识,具身模型很容易陷入「轨迹拟合」的死胡同,采集再多真机轨迹也很难泛化,毕竟纯模仿轨迹的机器人没有内化「为什么这样做」的物理直觉。

不过,这些讨论在国内似乎还没有引起足够重视,更不用提达成共识。这也是为什么,能和硅谷同频共振,甚至先于硅谷独立洞察并利用认知时间差抢跑的企业更加值得关注。

成立于 2025 上半年的深度机智便是其中最具代表性的一个。这家公司由北京中关村学院导师、中关村人工智能研究院(合称「中关村两院」)研究员陈凯创立,是这一国家级人工智能教育科研共同体孵化的首家公司。

深度机智创始团队早在 2024 年底就由智能眼镜的高速发展,敏锐觉察到人类第一视角数据即将迎来爆发,而此类数据蕴含的人类与物理世界交互的常识,是具身智能走向通用的破局关键。因此,他们毅然将筹码押在从「人类第一视角数据」解码「物理常识」,从而找到具身大模型的 scaling law。如今,他们已经成为国内最早布局这一赛道同时也跑得最快的公司。

而这种路线选择上的前瞻性,本质上源于团队对大模型通用智能的深刻认知,以及对如何真正将大模型的技术哲学应用在机器人上的长期探索。基于这种认知,深度机智已经搭建出一套涵盖数据、架构、算法的全栈技术矩阵

这套矩阵具体怎么运转?我们和陈凯博士聊了聊。

要做的不是「通用具身智能」

而是「具身通用智能」

对机器人研究有所了解的读者想必都听过一个词 —— 莫拉维克悖论。它指的是,对人类来说易如反掌的事情,对机器人来说却难如登天,比如简单地做个家务。Generalist AI 等公司认为,这一现象之所以存在,本质上是因为机器人还没有捕获到一种极度稀缺的「暗物质」—— 物理常识,也就是对力、摩擦、柔度和不确定性等物理属性的直觉。

然而,审视国内具身智能的发展,目前的竞争焦点却在另一个维度 —— 使用大模型拟合真机或者仿真得到的轨迹数据,并期望通过轨迹数据的堆积达到「通用具身智能」,也就是我们目前常说的 VLA 路线。在这种思路的主导下,行业普遍的做法是:给大模型加上动作模块,然后疯狂投喂机器人的末端轨迹数据,让模型去拟合「观测→动作」的映射。

陈凯博士指出,在基座模型物理智能水平低下的情况下,这种「端到端拟合轨迹」的做法,在数据使用上是非常低效的,而且可学到的上限很低。因为这就像训练一匹智力水平不足的骡马,无论重复多少遍都只能执行有限的指令。所以很多模型背了几万小时轨迹,泛化能力依然僵化。

更棘手的是,单纯的动作拟合不仅无法产生对物理规律的直觉,还会破坏大模型本身强大的通用理解能力,导致严重的灾难性遗忘。这一现象在很多报告中都可以看到,违背了大家利用 VLM 强大泛化能力的初衷 —— 最突出的表现就是,大模型中常见的长程规划和推理能力,在当前的大多数 VLA 模型中大幅衰减,反而成了少数几家能拿得出手的宣传亮点。这无不凸显出当前「拟合轨迹」为主的训练哲学的根本问题。

既然拟合轨迹学不到常识,具身智能到底该怎么走?深度机智之所以能在赛道上抢跑,正是因为他们在底层路线上完成了认知视角的翻转:他们要做的不是「通用具身智能」,而是「具身通用智能」

这一语序调换绝非文字游戏,而是训练逻辑的彻底重构。在深度机智的理念中,智能是原生的,具身只是其在三维世界的表现形式。真正的大模型下一阶段,机器人应当首先具备思考、搜索、交流等通用能力,并且深刻理解物理世界的运作规律,最后才是在现实中去执行任务。

这就是深度机智最核心的技术策略:「Understanding first, action next」(先理解,后执行)」

这种哲学,完美地回应了 Generalist AI 提出的「物理常识」难题。但在哪里能找到包含海量物理常识的教材?在深度机智看来,人类第一视角数据,正是那把解锁物理常识的完美钥匙。

陈凯指出,他们和 Generalist AI 想法类似:既然人类和机器人处于同一个受固定定律控制的物理世界,那么人类完全可以被看作是一种「特殊的机器人本体」。人类用多大的力气拿起鸡蛋而不捏碎,用什么角度推开半掩的门 —— 这些由人类作为「特殊本体」产生的第一视角感知运动经验,天然蕴含着极其丰富的物理常识。

然而,如果仅仅使用人类动作的轨迹进行训练,而不是提取其中的物理交互知识,那就无异于买椟还珠。为了克服这一问题,深度机智在成立短短几个月内,就构建了复杂的数据增强管线,并且仍然在快速迭代中,用以高效榨取数据中的物理常识。

利用这种物理常识被榨取过的增强数据去「喂养」基座模型,深度机智跳出了轨迹拟合的陷阱,换来了数据效率的质变:用千小时规模人类第一视角视频,就能超过别人用几万小时真机数据才能达到的泛化性。同时,他们也在模型架构和算法方面进一步优化,以确保大模型在长出「具身肌肉」的同时,绝不丧失原有的「通用灵魂」。

一套开始显现复利效应的技术组合

路线确定之后,深度机智面临一些更实际的挑战:数据怎么转译、架构怎么设计、训练目标怎么设定,每一步都决定着「先理解,后执行」能否跑通。

过去一年,团队围绕这三个环节搭建出一套全栈矩阵,并用三组对照实验验证了路线的有效性:他们只加人类第一视角数据,验证数据方法论;只改架构,验证训练方法论;只调算法,验证对齐方法论。最后,这些方法汇总到一起,他们训练出了成功率远超行业标杆的 SOTA 模型。

PhysBrain:千小时人类视频 PK 数万小时真机

人类第一视角视频是个天然的数据富矿,它能大规模记录日常生活中的长期任务、人与物体的交互细节,以及手部的精细操作动态。但这里有个关键卡点:这些视频里确实藏着「怎么做」的规划逻辑和物理交互规律,但都是隐性的,机器人直接看可能看不懂。

所以,深度机智的当务之急,就是建立一个翻译管道,把这些视频中的隐性经验,提取成结构化的监督信号 —— 比如任务怎么拆解、关键状态是什么、手该怎么动、物体之间有什么约束、时空关系是怎样的。

Egocentric2Embodiment 翻译管道便是为此提出来的,其核心是把人类第一视角视频「转码」成机器人能学的结构化教材:通过多层次拆解任务规划、关键状态、手部动作和物理约束,确保时序逻辑连贯且每个判断都有画面证据支撑,最终输出带标准答案的 VQA 监督数据(就像一份带标准答案的习题集),确保机器人「知其然也知其所以然」,而不是瞎猜。

利用这套方法,他们构建了数据集 E2E-3M,并用该数据集训练了一个具身大脑 ——PhysBrain。在完全未出现在训练集中的 SimplerEnv 四个操作任务上,PhysBrain(8B 版本)以 67.4% 的平均成功率力压行业标杆、Physical Intelligence 的 Pi0.5,领先优势达 10%

要知道,PhysBrain 的微调数据仅为千小时的纯人类视角视频(即 E2E-3M 的体量)和部分通用 VQA 数据,不含机器人轨迹数据,就让模型掌握了空间结构和物体动力学特征,展现了良好的泛化性;相比之下,Pi0.5 则是用数万小时真机轨迹数据「堆」出来的。这有力地证明了:一个深刻理解物理世界规律的「聪明大脑」,其学习效率与泛化上限远超轨迹拟合。

更令人惊叹的是,PhysBrain 在仅学习「成功案例」的情况下,竟自发涌现出了灵活策略能力和自动纠错能力

在 SimplerEnv 的胡萝卜抓取任务中,模型接到的指令只是把胡萝卜放进盘子里。第一次夹取失败后,它并没有机械地重复同一个抓取动作,因为模型发现夹爪已经碰到了胡萝卜,于是顺势改为用夹子把胡萝卜往盘子方向推,一次推不进去,又加大力度重新推了一次。后来,发现这种方式依然无效,它又主动切换策略,重新调整姿态去抓取。要知道,「推」这个动作是没有包含在模型训练数据里的,它也没有看到过失败轨迹示范,这种表现更像是一种对物理交互的直觉式理解。

之前,这种「涌现」现象几乎只有 Physical Intelligence 和 Generalist AI 提到过,但前者将其归因于大量「失败轨迹」数据。相比之下,PhysBrain 仅凭对人类交互逻辑的底层理解,便实现了从「僵化执行」到「灵活应变」的本质跨越。

TwinBrainVLA:给机器人安上「不降智」的双脑

PhysBrain 证明了人类第一视角视频能喂出「聪明大脑」,但后续的优化问题随之而来:一个模型既要保持开放世界的通用理解,又要输出毫米级的精确动作,这两个目标在优化时其实是打架的。这是 VLA 领域的经典难题:微调学动作,会遗忘通用知识;保通用知识,又学不会精细操作。

为了破解这个「左右互搏」的困境,深度机智创新性地设计了「左右脑」同构架构 ——TwinBrainVLA。具体来说,他们首先引入一个同构但被冻结的 VLM 模块作为「左脑」,保持其开放世界理解能力不变;同时又引入一个可训练的「右脑」网络,专门处理机器人本体感知状态和低级动作策略。关键在于「左右脑」之间的信息交互 —— 通过他们提出的非对称混合 Transformer 机制(AsyMoT),右脑可以动态查询左脑的语义知识,但左脑的参数不会被下游任务污染。

这种设计的精妙之处在于:知识迁移而不遗忘。右脑学会动作控制时,左脑依然保有识别「易碎物品」这样的常识知识及推断约束条件的能力;当机器人遇到新场景,左右脑协同工作,既不会变成「只会抓杯子不懂杯子会碎」的纯执行机器,也不会停留在「知道要轻放但手不听使唤」的纸上谈兵阶段。

实验阶段,深度机智在完全未出现在训练集中的 SimplerEnv 四个操作任务上验证了 TwinBrainVLA 的有效性:在数据量远远小于 Pi0.5 的前提下,TwinBrainVLA 将原生的 Qwen3-VL-4B 能力有效迁移到机器人控制任务上,在 480 次独立测试中的平均成功率达到 64.5%,远超使用了数万小时轨迹数据的 Pi0.5(57.1%)。它证明了保住大模型的底子,本身就能换来更高的性能上限。

LangForce:强迫大脑「读懂指令」再动手

数据策略 work,架构也跑通了,但具体的训练过程中,深度机智还发现了一些算法上的 bug,「视觉捷径」就是其中之一。

这个问题是说,模型表现出一种类似「偷懒」的现象:由于训练数据中指令与画面高度相关,机器人往往直接跳过语言指令,只盯着视觉画面做动作(比如看见碗和抽屉就执行「把碗放进抽屉」)。一旦指令稍作改变(比如改为「把碗放到炉灶上」),哪怕画面再清晰,模型也会因为忽略指令而彻底翻车。

为了解决这个问题,深度机智改进了算法,强迫模型回答「这个动作比单纯看画面多提供了什么信息」。他们设计了一个双分支架构 —— 一个分支只能看画面生成动作,另一个分支能同时看到画面和指令,然后通过最大化两者的差异(即条件互信息),让模型被迫「解释」为什么要执行这个动作。只有当动作真正体现了语言指令的语义时,模型才能获得奖励;反之,如果动作仅靠画面就能预测,模型就会受到惩罚。这相当于在训练过程中给模型设置了一个「防偷懒」机制,确保它不能把语言指令当摆设。

这个小小的改进带来的增益非常明显:在不使用任何机器人真机轨迹数据进行预训练的情况下,以原生 Qwen-3-VL 为主干进行微调的模型在 SimplerEnv 的四个任务上实现了 66.5% 的成功率,领先 Pi0.5 将近 10 个百分点

这一结果表明,逼模型真正理解语言指令,而不是过拟合训练数据里的表面特征,是打破泛化瓶颈的关键。

当三条路径汇合,能力曲线开始抬升

前面三个「控制变量」实验表明,深度机智在数据、架构、算法层面提出的各个创新都能带来显著的增益,但真正的质变发生在它们「三合一」的时刻。

最近,深度机智在训练的新模型中融合了上述三种方法,发现新训练出的模型(即将发布的 PhysBrain1.0 )在 SimplerEnv 测试中直接跑出了 79.8% 的平均成功率,超越了行业标杆 Pi0.5 达 22.7%,也超过了之前成绩最好的 Xiaomi-Robotics-0(79.2%),达到 SOTA。

这种领先优势在其他具有挑战性的场景中得到了进一步验证。在 RoboCasa 上,PhysBrain1.0 仅使用千小时人类第一视角数据做 VLM 增强,就达到 58.1% 成功率,拿下 SOTA。这个测试强调多阶段家庭场景操作,考察的是长程规划与稳定执行能力,结果说明模型已具备真实场景落地的潜力。

同时,深度机智还观察到,虽然模型使用的是人类第一视角视频和少量 ALOHA 机器人轨迹数据进行训练,但在另一个机器人真机平台 ——Franka 上,它也能实现接近 100% 的抓取成功率,这说明模型了具备业界少见的跨本体泛化能力

从基础操作到复杂协同,再到泛化迁移,PhysBrain1.0 基本实现了全线领先。在 3 月底的中关村论坛上,PhysBrain1.0 将正式亮相,相关成果也将开源。

当能力上限被抬高

竞争才真正开始

如果把视线拉回到整个行业,就会发现一个颇为微妙的错位。

一边是机器人本体快速迭代,关节更灵活,控制更精准;另一边,大脑却始终被数据瓶颈卡住。仿真派和真机派争论不休,但两条路线都绕不开同一个隐忧:当模型只能在机器人的闭环视角里反复拟合轨迹,多样性和信息密度都极为有限,很难真正长出对物理世界的直觉。

深度机智的思路,更像是大模型出现后机器翻译的那次代际跃迁。早期翻译系统靠规则和对齐表修修补补,效果始终有限;直到模型开始掌握语言的底层结构,质量才出现质变。具身智能也一样,与其在「观测  动作」的映射上死磕,不如先让模型通过人类第一视角视频习得物理世界的「通用语法」。当常识内化之后,执行反而成为理解的自然外显,数据效率因此出现数量级的提升。

这种认知时差带来的先发优势,正在沉淀为一整套技术闭环:从人类视频的结构化转译,到左右脑异构架构,再到针对语言与动作对齐的训练算法,彼此咬合。结果不只是单点指标领先,而是一条成本结构更优、规模化门槛更低的路径。高数据效率叠加对物理常识的系统性建模,使得后来者很难仅靠堆算力或堆真机轨迹在短期内追平。

接下来,深度机智计划在 2026 年上半年把人类第一视角数据规模推进到百万小时量级。在这个数量级上,问题或许不再是「机器人能不能完成某个任务」,而是物理常识的 Scaling Law 能否完全显现。

人类视角数据采集现场。工人可以边工作边采集,人类视角数据采集现场。工人可以边工作边采集,

多样性和信息密度都足够丰富,而且采集成本低。

如果答案是肯定的,那么具身智能的拐点,可能会比很多人预想得更早到来。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片