对话星动纪元创始人陈建宇：具身智能加速进入物理世界 | 元璟科技十人谈|机器人|AI|智能_新浪科技

星动纪元的第六代人形机器人“星动STAR1”刚刚结束了河西走廊之旅，在古老的山地、草地、戈壁和现代的公路地形中，它腾空奔跑，快速运动。这也不是我们第一次见识星动STAR1的全能，在日常的测试中，它取物倒水、修剪花草，甚至遛狗和抚摸小猫……

但更关键的是，这些能力并没有经过提前专项建模，基于独创的原生机器人大模型和为AI定义的全新硬件平台，星动STAR1开始像人一样感知世界，然后学习、然后预测、然后反馈、然后进阶。

近日，STAR1背后的「星动纪元」公司也完成了再一次进阶，公司宣布完成近3亿元Pre-A融资，致力于成为原生通用具身智能体的定义者。作为本轮投资的联合领投方，元璟也持续将人工智能和智能机器人作为主攻方向，在最近的一场对话活动中，元璟科技团队和星动纪元创始人陈建宇展开讨论。在AI的驱动下，具身智能对真实物理世界的影响，可能比我们想象的还要来得更快。

（人形机器人星动STAR1行进在河西走廊）

星动纪元的人形机器人为我们展现出真正由AI驱动的具身智能体。

它足够AI原生，机器人像人一样进行学习，摈弃掉任何人类先验，几乎没有人工编程，致力于用最本质和简洁的算法去让AI学到最多的知识；
它足够通用，不针对每一个单一任务设计软硬件，机器人可以学会各种任务，适应各种环境；
它的本体也围绕AI去设计，高度拟人，去看见、去触摸，机器人用人类与世界最原始的交互的方式来认识世界、获取数据。

在今年秋季举行的元璟资本投资人年会上，元璟资本执行董事任易与星动纪元创始人陈建宇展开对话，“我们正在努力去实现的，是做出一款‘原生’的机器人大模型。它并不仅仅是大语言模型的有限拓展，而是真正在丰富多彩的物理世界数据基础上训练，真正去理解和改造我们这个物理世界，”陈建宇说。

以下为对话内容

Q：元璟资本任易A：陈建宇

具身智能：构建通用的

和这个世界交互的AI

任易：非常感谢陈老师跟我们做人形机器人的讨论，在过去一年，具身智能和机器人在学术界和产业界都受到了非常大的关注。首先请陈老师介绍一下自己。

陈建宇：非常感谢元璟的邀请，大家好，我是星动纪元的创始人陈建宇，也是清华姚班的助理教授。我十多年来一直从事机器人和AI的研究工作，并横跨具身智能算法到传统机器人学再到机器人硬件。我本科时在清华搞机器人硬件并参加比赛，本科毕设研究双足机器人的步态规划算法。后来我直博去了UC Berkeley，研究机器人控制以及机器学习算法。如果区分一下，本科主要是学习硬件和传统控制，到博士期间经历了机器人从传统控制到AI主导的变化过程；博士毕业后回到清华姚班任教，带领团队继续深入研究具身智能与人形机器人技术，并于去年创立了星动纪元。我们召集了全国范围内非常顶尖的研究人员和工程技术团队，在一年时间内快速迭代了很多代机器人，现在已经迭代到了第六代，今年也在开始加速商业化的探索。

任易：机器人本身不是一个新的主题，第一台人形机器人1986年就存在，那为什么现在机器人又会变成一个大家很关注的一个主题？它最大的变化是什么？

陈建宇：最大的变化就是AI，而且是原生的AI。机器人本身有很长的历史了，包括我们现在规模化应用工在厂里面的工业机器人，其实也有半个多世纪的历史了。

什么是原生的AI呢，就是没有人类先验，完全由AI驱动。AI有个著名的概念the bitter lesson，由“强化学习之父”理查德·萨顿提出，讲的就是没有人类先验，简洁的AI算法+大规模最终总会有更好的效果，我们在机器人领域看到的变化也是一样，从之前基于编程的，基于物理世界建模的方法，演变为基于原生AI的数据驱动方法。

传统的机器人算法需要做比较细致的编程，这样才能让机器人做相应的事情，但是这会造成有一些难以建模的复杂动作无法完成，而且大量的编程会耗费大量人力物力。今天世界上的机器人数量还是非常少的，最主要的原因是缺乏比较通用的智能，以致于机器人只能做简单单一的工作。

而现在，一方面AI的技术开始往机器人里面去渗透，另一方面大语言模型的出现，也体现出AI的范式也在经过大规模的变化：更简洁的算法、更少的先验知识，同时配合规模更大的计算，实现更加复杂的性能，甚至智能的涌现。

任易：这就是大家说的更多的具身智能？

陈建宇：是的，往更大的地方说，我们今天希望去让AI学会一个通用的和这个物理世界交互的方式，而不仅仅局限于大语言模型那样学习人的语言和知识表达。这样的AI是更难的，因为它需要对整个物理世界最原始的数据来做学习。同时，它不仅仅需要软件，还需要硬件载体，这就是为什么我们也做机器人本体。

“通用具身智能体，

意味着原生机器人大模型

和面向AI的硬件载体”

任易：在这样的大技术变革下，其实是非常‘非共识’的，大家眼里看到的未来都不同，您眼中AI的技术变化会给机器人带来的未来是什么？您今天扎进产业里来创业的目标是什么？

陈建宇：我们的目标是打造一款通用具身智能体。首先就像刚才我们提到的，是对现实物理世界交互知识的建模和学习。我们最终需要的，也是我们正在努力去实现的，是做出一款“原生”的机器人大模型。它并不仅仅是大语言模型的有限拓展，而是真正在大规模的丰富多彩的物理世界数据基础上训练，真正理解我们这个物理世界，并知道怎样控制机器人的身体去改造这个物理世界，实现我们制定的目标。

同时，我们这里要强调智能体的体，是因为学会和世界互动一定需要载体，所以我们一定要构建硬件，而且硬件必须也是围绕AI来构建的，一切为了AI服务。在形态上我们直接选择了最终极的人形，因为人形是最通用的形态，也是通用具身智能体的最佳载体。因为人类是这个世界上通用具身智能体的唯一现存实例，也只有人类能提供足够多的与这个世界交互的各类丰富的数据供模型进行学习。而人形机器人作为机器人领域皇冠上的明珠，其相应的操作、移动等功能都能向下兼容到其他形态，比如机械臂和轮式。

“如何实现具身智能？

简洁、通用、端到端和全模态”

任易：但今天具身的技术实现还完全没有收敛，model VS learning, RL和模仿学习，小模型VS大模型，包括无论是算法还是数据等等，您选择的技术路线是什么？

陈建宇：我们的技术路线最重要的特点，是原生AI的设计，摈弃掉任何人类先验，我们的机器人里几乎没有人工编程，我们致力于用最本质和简洁的算法去让AI学到最多的知识。也是得益于原生AI的设计，我们在做一个非常通用的学习方式，设计一个通用的方法去学习所有的交互的方式，它和任务无关，和环境无关，甚至和机器人形态也无关。因此我们能够通用地去解决各类机器人移动和操作问题。最后在这样简洁而原生的AI架构下，我们在模型和数据上做规模化，做scaling。简洁并不等于简单，更简洁但更好的架构其实是更难设计的。

任易：那首先是通用，大家都在说通用，您如何理解通用？

陈建宇：我们希望机器人能够通用的适应各种环境，执行各种任务。会从基于人类知识和先验的建模中解放出来，获得通用的智能；当机器人具备足够的泛化性时，我们就不用针对每一个单一任务单独设计机器人的软硬件了，机器人的应用也将随之迎来阶跃式的发展。

想象我们需要快速部署机器人到工厂里去执行一道新的工序。尽管机器人以前从没有见过这道工序，它也能直接上手执行并达到80分的水平，因为它在海量的数据中训练，具备了物理常识和推理能力，能够对新的任务进行理解和泛化。为了进一步提升，我们可以请人演示一遍这道工序的操作过程。模型看过这个演示后，在对任务的基本理解基础上通过模仿从而达到了90分的水平。接下来，模型不断地自我强化训练执行这道工序，经过比如一个下午的练习后，最终达到接近100分的水平。这种模式我们希望能通用地适用于任何任务，任何环境。

要实现这样的通用效果，就要求我们一定尽可能地去除人类先验，设计一个简洁而恰当的原生AI架构去做scaling。我们的AI系统架构很简洁，无论移动还是操作都是端到端的，从输入到输出都是一个网络，感知输入动作输出，整个学习是无损的。在这样简洁的端到端架构下，我们通过算法、数据和网络架构的迭代和积累不断提高机器人各方面能力的通用性。

任易：端到端确实是个趋势，我们也选择all in端到端？

陈建宇：对，我们一个很大的特点就是端到端。从感知到预测到规划到控制，整个链条很长，如果用传统的方法，在链条之间加入人为设计的中间界面，这会产生信息的损失，同时数据也是分散的，没法共享。所以我们非常重视端到端，用一个神经网络解决所有环节的问题，从感知的输入直接到动作的输出。建立这样的范式之后，我们再想办法去规模化。这样端到端的方式可以适配所有可能的任务和环境，因为它是用最原始的跟这个世界交互的输入和输出，也不需要任何针对特定任务的中间过程编程。

任易：您也一直在强调原生，究竟什么是原生AI，特别对具身智能来说，什么是原生的AI算法？

陈建宇：我们所说的原生AI算法，非常重要的一点，就是支持全模态的输入输出。什么是全模态？就是采用我们最原始的和世界交互的整个模态。这里面的数据种类就远远大于语言，比如视觉，触觉，肢体状态，声音，还有机器人的行为动作等等，这其实就是最原生的我们人类怎么去理解这个世界还有和这个世界交互的方法。在这样的数据上训练，才能得到我们想要的原生的机器人AI。而我们今天要做的就是构建一个可以承载这么多种类和这么大规模的数据，而且足够简洁可以scale up的方法。

语言这种模态其实是一种抽象程度非常高的数据形式。人把自己对这个世界的感知总结下来，变成一种非常抽象的数据源，这就是语言。所以它里面的知识含量的密度是非常高的，但具身智能需要去实现的其实是怎么样像人一样去感受这个世界。比如说怎么看，怎么听，怎么去感触，然后怎么去跟这个世界互动，这是全模态的。在这样全模态的状态下，当它结合上一些原生AI的方法的时候，它才能实现最好最通用的跟这个物理世界交互的方式，而且不同模态之前也有互相增强的作用。而当前行业里比较多的做法是直接套用语言模型或基于训练好的语言模型去拓展，这其实都不够原生。

“All about scale up”

任易：对于具身智能来说至关重要的问题就是Scaling（规模化），目前还没有人真正达到scale up。怎么才能实现真正的scale？

陈建宇：要真正实现Scaling有以下几个非常重要的组成部分，构建足够好的学习方法，以及加大可以利用的数据规模。

学习方法上，首先是融合世界模型的联合训练，需要原生的学习物理世界的知识。目前的方法基本都是直接学习如何采取行动，而忽略了对世界本身的理解。我们近期的研究中在学习如何行走和操作的同时都加入了对环境特征的解码以及对未来的预测，我们发现融入世界模型的学习对机器人模型的泛化性有极大的帮助。加上各种维度把物理世界学习出来。

二是多源数据的融合与迁移，也就是提高我们可以利用的数据种类，做到增长的大规模。我们需要找到更多的来源获取数据，比如怎么利用仿真的数据，怎么利用网上大量的视频数据，并使这些数据之间能够灵活地搭配使用。我们通过提出新的算法架构来解决Sim2real Gap以及跨机器人形态的问题，使得我们训练时能够利用仿真数据，其他类别机器人的数据，甚至是非机器人的网络视频数据来对数据量进行增广，极大地降低了数据的获取成本。

三是强化学习的Scaling Up，也就是让我们的学习方法可以做到更大规模；这一直是机器人强化学习中的难点，此前的强化学习基本都是一个任务训练一个网络。在我们近期的一些研究中，我们已经能够让强化学习从千亿量级数据中学习，并且训练百亿级参数的机器人大模型，我们在移动和操作端都展现了通过强化学习实现一个网络适用多种环境和任务的能力。

“智能体关键要素：硬件！硬件！”

任易：您提了很多次围绕AI构建的硬件，您能具体介绍下吗？

陈建宇：具身智能和语言模型最大的不同是和物理世界的交互，因此它也必须要有硬件载体，而且软硬件需要一体化地去构建，去迭代。这就要求硬件也要围绕AI去设计。因此，我们的硬件，包括核心零部件、关节、灵巧手等，都是围绕着AI去设计的，围绕简洁统一的原生AI去设计的。

我们的本体是高度拟人的，传感器的模态和位置，跟人的眼睛、触感、方向感等感受器的模态和位置高度一致，控制输出也和人的双腿以及双手非常一致。这就使得机器人可以直接利用人类最原始地与世界交互的方式来获取海量的数据。

我们的硬件架构也是简洁而统一的，机器人的腿和手的硬件几乎是同构的，而且硬件架构非常简洁，比如我们的灵巧手没有任何传动机构。这样简洁而统一的架构可以非常完美的与我们简洁而通用的原生AI算法去贴合起来，算法软件和本体的硬件同步的去螺旋式的进化。

任易：从今天来看，这样的技术路线现在实现了什么样的效果？

陈建宇：首先我们已经获得了很不错的泛化能力，我们的机器人能够自主适应各种不同环境，包括雪地、楼梯、长城等等。所有这些环境我们都没有提前建模或训练过，并且最终是一个端到端的网络一镜到底地通用地适应各类环境，这是在机器人经过千亿量级的仿真数据下训练出来的通用模型，而不是像大家通常所看到的一个任务训练一个网络。这就是scale up的作用；

其次我们这样更简洁的AI设计其实可以使用与各种不同的任务，我们的上肢操作也是在上亿规模的真实世界数据上训练，实现一个端到端的神经网络按照语言指令直接完成各种不同任务。现在可以实现在真实世界中训练20分钟就可以适应新的任务，而且我们也在尝试做更大规模的模型。

而且我们通过融合更多信息维度，让机器人更好的能获得整个世界的基础知识，比如我们demo中的机器人已经完成了perceptive RL，基于感知的强化学习，以往的机器人都是盲走的，而我们的机器人已经把视觉加到了整个强化学习中作为输入，机器人开始像人一样对周围有了感知。

得益于我们对AI的理解，和原生和简洁的AI设计，locomotion（运动）和manipulation（操作）对我们来说其实没有那么大的gap，背后很多learning在设计上是互通的；这也是为什么我们的技术栈最全，比如端到端的网络架构使得我们的机器人具备良好的闭环控制效果，在环境受到瞬间的干扰和变化时，机器人能立刻反应过来并快速改变其行为来适应环境的突然变化。

目前，星动纪元在通用具身智能体软硬件领域的理念与进展已在真机和商业化产品中得到充分验证。

（转自：元璟资本）