DYNA 创始人笔记：24 小时叠餐巾背后的 AGI 愿景|机器人_新浪科技

来源：真格基金

既能仰望星空，又能脚踏实地，这是我们对于科技创业者的理想画像。

从投资 Dyna Robotics 以来，就一直被 Lindon、York、Jason 三位联合创始人的技术远见和务实落地的精神所打动。而我们团队的谢岩（Monica）同学，更是被打动到躬身入局，已经正式宣布回到湾区加入 Dyna，我们也期待她能够继续带着好奇心探索技术前沿（但还是要继续给我们录播客的👿）

如何打造能够自我提升并且高质量完成任务的机器人系统？今天分享 Dyna 联合创始人 York 的这篇文章，希望能对大家有所启发。Enjoy！

真格基金管理合伙人戴雨森

DYNA 到底在做什么？

自从我们发布了 DYNA-1 以来，陆续收到了不少问题。有的是在公开社交媒体上提出来的，有的是朋友私下交流时提到的。核心都围绕着同一个疑问：

DYNA 为什么跟别的公司这么不一样？你们到底在做什么？

从外部视角来看，DYNA-1 的发布多少有点「莫名其妙」。当全网都在为人形机器人能跳舞、能跑马拉松而欢呼时，当大家都在热议那些能听懂人类指令、完成多种任务的大模型机器人时——我们却发布了一个在原地反复叠布餐巾、干满 24 小时的「专用」机器人。

DYNA-1 机器人正在叠餐巾

这很容易让人以为：DYNA 是不是一家传统的垂类机器人公司？就像过去的工业机器人那样，专注做一件事，把它做到极致，然后靠它赚钱。

这个疑问其实挺值得聊聊的。因为在 DYNA 正式发布之前，我们原本以为公众、同行、投资人对机器人发展的方向已经有一定共识了。但发布之后我们才意识到：如今关于「机器人应该是什么」的讨论，其实还处于一个百花齐放、分歧巨大的阶段。

今天就借这个机会，用我个人公众号的方式，分享一下我们自己的思考。既然是个人写的，我就不准备用各种冠冕堂皇的大词去糊弄大家，而是想聊点真实的东西，聊聊我们对机器人行业的长期愿景，以及 DYNA 的角色定位。

这篇是第一篇，主要讲我们在科研方向的一些思考。后面我还会从其他角度继续写下去。

DYNA 是怎么起步的？

时间回到去年公司刚成立的时候。那时候，国内人形机器人领域已经很热了。海外像 Figure、Physical Intelligence、Skild、The Bot Company 等等，也都陆续曝光并开启大规模融资。

我们选择在那个节点切入，其实算是一个偏晚的时间点。甚至有一位我不能透露姓名的投资人，直言不讳地质疑我们：「你们啥背景都没有，凭什么和这些行业老炮儿、教授们竞争？」

这个问题我们其实自己也认真思考过很久——我们要做一家公司，什么样的路径才有可能在这个巨头林立的生态中杀出一条血路？

那时候我和 Lindon、Jason 一起其实试过很多方向，最终才落地到我们现在坚持的这条路上。整个决策背后，有几个关键的判断。

什么样的技术路径，才是真正可行的？

回到去年 9 月，当时整个机器人圈正处于 diffusion policy 逐步成型、mobile ALOHA 大热的时间点。

行业内各种技术路线并存：

- 有坚定支持 ALOHA 或 UMI 这种模仿学习方法的；

- 有主张从人类视频中直接学习并迁移的（比如字节的 GR-1）；

- 有靠大规模多模态数据做表征学习的（比如 RT-X）；

- 有走强化学习路线的；

- 也有依赖仿真环境、合成数据的。

每条路线都有支持者，也都有一堆问题。我们能看到的，其实都是很早期的雏形。甚至直到今天，也没有哪个方向真正被验证为「绝对可落地」的技术路径。

我本人从 2016 年开始从事 AI 相关工作，从最早的传统机器学习和数据挖掘，到中期深度学习的快速发展，再到近几年 transformer 和各类生成式 AI 的兴起，几乎经历了整个机器学习行业的演进过程。

撇开技术形式不谈，我一直认为，真正能够长期、大规模落地的 AI 技术，必须具备高度的扩展性。

深度学习其实在很长一段时间里都没能实现真正的大规模应用，根本原因在于：它在数据的获取和使用上，始终受到采集、标注等现实成本的严重限制。如果我们对比深度学习之前的传统机器学习技术，尤其是广泛应用在推荐、广告等领域的那些系统，它们能快速扩展的关键，就在于数据获取相对容易，且能形成低成本闭环。

很多推荐系统的问题可以通过自监督方式冷启动：只需分析用户的点击行为，就可以找到兴趣相似的用户，从而推荐相似内容。整个系统的数据来源和反馈机制本身就是闭环的，可以低成本持续扩展。

但进入深度学习时代后，特别是在计算机视觉领域，数据问题一下子复杂了许多。数据的积累和标注成为了核心瓶颈。与推荐系统不同，视觉任务很难通过自监督方式获得有效的训练信号，大多数情况下仍然依赖大规模的人工采集与精细标注。这使得数据迭代呈现出高度的异构性和任务专用性。像 ImageNet、COCO 这样的大型通用数据集，虽然在学术上推动了研究范式的形成，但到了真正落地阶段，我们看到的几乎所有项目，依然是通过一条一条手工标注数据堆出来的。这也是为什么整场深度学习革命在工业界的大规模应用进展得如此缓慢。

最典型的是无人驾驶，光是积累有效数据就花了十几年。人脸识别、工业检测、商品识别等领域也面临类似问题，最终也都发展成了高度定制、缺乏通用性的模型体系。这也部分解释了为何当年的「AI 四小龙」，除了商汤在资本市场上取得了相对较好的结果，其他几家如今都面临较大困难。而深度学习之所以没法像推荐系统那样靠几个通用数据集直接落地，核心问题在于：图像任务的复杂度远高于推荐系统，通用数据集难以支撑稳定的泛化性能。要想拿到能稳定落地的结果，仍然得依赖更高质量、更具场景针对性的数据，而这就意味着更高的人工成本，也正是这条路一直没能跑通的原因。

再说到为什么这一波大模型反而跑通了？很多人说是 OpenAI 押对了「大力出奇迹」的策略，但我认为真正的核心在于：语言数据具备天然优势——结构清晰、规模庞大、易于获取，且几乎不需要人工标注。

今天的大语言模型，几乎都是建立在全网文本预训练的基础上，而语言这种数据形式，本质上就是一种由人类设计出来、用于表达世界的结构化系统。相比于图像、语音，语言的结构化程度更高、数据噪音更少，是「先天干净」的数据源。再加上语言模型的训练方式本质是自监督的，只需预测下一个 token，无需任何人工标注，这就从根本上解决了模型规模化训练中的成本问题。也正因为有了这样一个可行、低成本的预训练路径，才有了后续通过人工筛选构建的 SFT 数据，以及 human-in-the-loop 的微调方式，最终跑通了 ChatGPT 这类产品背后的完整训练闭环。

所以，综上来看，如果我们希望一个 AI 系统具备长期、规模化应用的潜力，必须同时满足两个前提条件：

1. 数据获取的成本足够低

2. 所获取的数据本身足够结构化（换句话说，就是质量够高）

只要这两个条件缺一，其实这个 AI 系统长期落地的可能性就非常有限。

回到 DYNA 创立之初的思考

如果你要考虑机器人这个领域的数据，其实和当下的语言模型（甚至现在的多模态 VLM）有天差地别的不同。从前面提到的两个因素来看，首先机器人数据本身就是稀缺的。和文字数据不同，机器人数据的体量目前可能只有文本或视频数据的零头。

机器人数据的采集需要实体机器人的介入，哪怕使用 UMI 这样具备扩展性的方式，数据获取的成本仍然非常高。而通过人类视频数据进行学习，在技术上虽然可行，但本质上存在非常大的 embodiment gap（具身差异）。从我们前面对于「高质量数据」的定义来看，这意味着这类数据本身就不够优质，要高效利用也非常困难。

同时，对于机器人来说，「高质量数据」不仅意味着由机器人本体采集、没有 embodiment gap，还意味着这些数据要能体现出机器人完成任务时的效率、稳定性和可靠性。语言模型当前最大的问题是 hallucination（幻觉），但如果同样的问题发生在机器人身上，后果将是灾难性的，甚至可能直接影响安全。

所以，我们认为可靠的技术路径应该是：

1. 采集少量高质量、多任务、具备泛化能力的数据，先建立起对物理世界的基本理解——而这种理解必须能映射到机器人操作空间中（解决早期数据成本的问题）；

2. 利用强化学习在各种实际场景中提升执行的可靠性，让机器人真正具备自我提升能力（解决高质量数据不足的问题）；

3. 利用这些高质量数据反哺基础模型，逐步替代早期的低质量数据，不断增强其通用能力；

4. 继续采集更多任务数据，回到第 1 步，形成可持续迭代。

在这个过程中，其实 DYNA 从不拘泥于任何单一的技术形态。我们用过 ALOHA、UMI，也尝试过仿真环境和合成数据，同时也在探索世界模型与人类视频。只要能推动这套迭代逻辑往前走的技术路径，我们都会尝试。目前行业内很多路线，仍然延续了 ChatGPT 成功后的「大力出奇迹」式做法——无论是自建数据采集工厂，还是委托第三方团队，目标都是大规模采集各种任务的操作数据。但我们认为，问题在于：数据质量缺乏明确标准。

目前实验室普遍以「成功率」作为模型能力的衡量标准，久而久之，这一指标就被倒推出数据采集的标准——只要任务完成了，数据就是「有效的」。但我们认为，在机器人时代，这样的标准远远不够，甚至连 ImageNet 或 GPT 用的互联网数据的质量都达不到。这也正是为什么我们选择尽早走入真实场景，进行数据采集的原因。

总结

高质量、低成本，才是长期积累机器人数据的基石。而「高质量」本身，只有在真实环境下、面对真实需求时才能被准确衡量。所以，这条数据闭环链路里的每一个环节，缺一不可。

回到最初那个问题，我们为什么要 demo 这样一个看起来「莫名其妙」的 DYNA-1？其实我们是在验证前面提到的第 2 个闭环环节——如果一个机器人模型本身没有自我提升的能力，而是完全依赖采集数据来驱动，那你几乎不可能同时做到高质量和低成本。

至于仿真数据、合成数据能不能用？当然可以，我们并不否认它们的价值。DYNA-1 只是展示了我们认为目前最可行的一条路径，它不代表其他路径就无效。只是在我们看来，以当前前沿成果为准，仿真在精细操作领域依然存在巨大的 sim-to-real gap，而合成数据还处于早期阶段，仍需要时间验证。相比之下，真实场景中的强化学习，是目前我们认为最快、最可能跑通这个闭环的路径，所以我们选择从这一步先做起。

在 DYNA-1 里：

1. 我们强调了 24 小时的可靠性，是为了证明我们的强化学习方法可以让机器人不断自主学习、自我提升，进而提升数据质量。你可以想象一下，如果机器人不具备这个能力，强化学习过程将会非常痛苦——可能每几分钟就要人工干预一次，还不一定能探索出有效的策略空间。

2. 我们强调了数据质量和任务完成速度。我们采用了真实客户对最终产品的标准来评判数据质量，而不是笼统地只看任务是否完成。这在上面的闭环中，是不可或缺的一环。试想一下，如果事前没有任何标准，你对数据质量的要求也只能是「尽量完成、尽量快、尽量少出错」这种模糊的目标。这种「尽量」式的反馈，对模型几乎没有训练价值。就像网球教练只会说「你尽量打准一点」，这样的反馈根本无助于提升你的动作质量。

3. 我们也看到了泛化能力的提升。在高质量数据的加持下，我们惊喜地发现模型的 zero-shot 泛化能力出现了明显飞跃。比如在用低质量数据训练时，机器人 zero-shot 去叠不同样式的毛巾、衣服，或切换任务时，成功率都很低。但当我们使用更高质量，甚至强化学习优化过的数据之后，zero-shot 的成功率有了质变提升。虽然目前我们还无法完全解释这个现象，但类比人类学习，可以理解为：当你已经在某个领域成为专家，你迁移学习到其他领域的能力也会更强，因为专家掌握的不仅是知识本身，更是高效学习的方法。

所以 DYNA-1 的 demo，并不是为了展示我们的「叠餐巾」任务可以商业化落地了。而是在科研层面上，演示了一个具备长期可持续性的商业-科研闭环和数据飞轮。如果这个闭环你跑不通，那很遗憾，从过往经验来看，你很可能会成为那些最终撑不下去的项目之一。而 DYNA 从创立那天起，我们就设想它是一家能够长期通用、长期可扩展，并真正推进人类 AGI 事业的公司。

好了，这篇是第一篇，主要从科研角度阐述 DYNA-1 的价值。接下来还会有几篇，从不同角度继续分享我们希望通过 DYNA-1 传递的长期愿景。希望大家拭目以待。