波士顿动力等中外专家探讨“人形机器人”的过去与未来_新浪科技

8 月24 日，“2024 世界机器人大会”主论坛进入第三天，在下午的主论坛上，举办了“为人形机器人发展提供新‘动力’”的对话环节，德国慕尼黑工业大学教授Alois C. Knoll主持，AI研究所执行主任、波士顿动力公司创始人Marc Raibert（马克·雷伯特）与来自本土的四家企业老总参与了讨论。

本文引用地址：

图1

四位国内领军企业的老总是：北京具身智能机器人创新中心总经理熊友军，星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇，宇树创始人、CEO兼CTO王兴兴，北京大学前沿计算研究中心助理教授、北大银河通用具身智能联合实验室主任王鹤。

1 人形机器人的历史

主持人——德国慕尼黑工业大学教授Alois C. Knoll首先做了开场白。

我们已经走了很长的路，但也许不是每个人都意识到这是一条非常非常长的路。

人们可能不知道：世界上第一个机器人就是人形机器人。

捷克作家卡雷尔·卡佩克（Karel Capek）于1920 年创作了一部名为《R.U.R.（Rossum’s Universal Robots），罗萨姆的通用机器人》的戏剧，该剧于1921 年首次上演。因此100多年前，机器人（robot）这个词出现注1。有点可悲的是，即使在那时，机器人也基本上接管了人类，并治愈了人类。所以从那一刻起，人形机器人就有了相当负面的含义注2。

第一个机械的、实际工作的人形机器人是由美国西屋电气公司为1939 年的世界博览会生产的，叫Elektro。Elektro 2.1 米高，重120 公斤，可以根据语音命令走路、说大概700 个词（使用一个录音机）、抽烟，吹气球、移动头和胳膊，光电眼能分辨红色和绿色光。后来，Elektro 有了一条四条腿的狗作伴，名叫Sparko。

图2 1940年，Elektro有了自己的机器狗Sparko

这也是很久以前——80 年前的事了。

如果继续前进，我不得不说，我必须向所有有不同意见的人道歉。这是对此后几年重要事件的个人看法，早在1973年，微处理器发明后不久，日本早稻田大学建造了第一个人形机器人Wabot-1，它是一个全尺寸的人形机器人。随后是Wabot-2，能读乐谱并弹奏电子键盘。它头上有一个摄像头，并且有五指，那是在1980年——44 年前的事情了。

第二波浪潮是行走机器人的时代，在1985—2010年。有一些不同的实验室参与其中，本田是一家出色的公司，他们从1986 年两足步行机开始，以ASIMO 结束——2005 年推出第二版。遗憾的是，该计划被终止了。但正如Marc（波士顿动力）所说，如果你真的想赚钱，也许在那时，不应该建造人形机器人。也许这种情况正在改变。

在第二波，主要是行走、全身移动和一些有趣的躯干的研发。

我也做一点自我营销。在2000 年，我发起并主持了第一届IEEE/RAS 人形机器人会议（Humanoids2000）。

多年来，该会议不断发展壮大，最近一次是2024 年在法国举行的。

2008年，我参与了欧盟旗舰项目的概念开发，2013年是该项目的人脑项目HBP 的联合创始人。2009 年参

与了欧盟大型项目ECHOPD（欧洲开放机器人协调中心），是一个为期10 年、耗资5000 万欧元的大型服务机器人项目。

从2006起，我们也做了多款人形机，最新的是2024年的roboy。

2 为何对人形机感兴趣

主持人：王兴兴（宇树）在大会的主题报告中称：我们现在正进入一个新时代，发展可能会呈指数级增长。

想问小组成员的一个问题：是什么让你们与人形机联系在一起？你为什么对人形机感兴趣？

我很不礼貌，让我从自己的介绍开始。自2001 年以来，我一直是慕尼黑工业大学的教授，我对人形机器人的一个方面产生了兴趣，那就是具身。

我和苏黎世大学的朋友Paul Pfizer（音）一起（可惜他已经退休了），我们都是具身的坚定信徒。我们认为，只有在以非常自然的方式与世界相连的人体中，才能发展出人形的智能。因此，身体应该具有相同的动力学和尺寸等。否则将很难发展。关于这一点，可以看到一系列机器人是这种具身智能的结果之一。

内在功能比外在表象重要

Marc（波士顿动力）：人形是否意味着有两只胳膊、两条腿、一个头？实际上，直到最近我才感兴趣人形机器人。我一直认为，功能（注：因为Marc 是一名教授）是最重要的——移动性、灵活性、感知力和智力等，形态和化妆是次要的。另外，人形机器人意味着动态的、逼真的，能与外界互动。

我一直是人形机器人的粉丝，尽管波士顿动力公司制造的第一个机器人是弹簧棍（音：pogo stick）之类的东西。但我认为人形机器人的许多要素都在那些弹簧棍的东西里。当波士顿动力公司开始建造机器人时，那些直立的、有双腿和双臂、有时甚至可以向前移动的机器人很吸引人公众（非科学家、非工程师），例如在视频网站YouTube上，点击量会是四条腿机器人的10 倍以上，可见公众对人形机器人更感兴趣，而狗却没有得到同样的关注。

人形机的几点改进方向

北京具身智能机器人创新中心总经理熊友军：我开始对机器人感兴趣是在读博士时——2000 年开始做工业特种机器人，用在一些危险环境里。这是因为那时机器人技术还很不成熟，但是在一些领域，尤其在危险场景里必须要由机器人去完成。

但是那时机器人的智能是很低的。所以当时的办法是将机器人的智能跟人的智能结合起来，所以做了机器人遥操作。

但是在遥操作过程中，发现很多场景用工业机械手臂、轮式机械臂解决不了的问题，尤其在一些狭小、复杂的环境中，轮式、履带式进不去，但是人可以进去；还有一种情况是需要使用很多工具去完成的工作，当时用机械手臂等机器人很难去完成。可见，人形机器人应该是一种好的工具或解决方案。

当年本田公司的机器人P1（1993）、P2（1996）、P3（1997）及ASIMO（P4 的俗称，2000），给我提供了一些启发。从那时起我对人形机器人非常感兴趣，毕业后一直从事机器人方面的工作。

2012 年在上海，我与周剑（注：现任优必选CEO）等人合作，一起创建了优必选。之后一直在做人形机器人/ 机器人的研发工作。2023 年我从深圳来到北京，筹建了“北京具身智能机器人创新中心”，聚焦人形机器人方面的研发，希望解决人形机器人的一些共性和关键性技术，包括三个方面。

①本体技术研发的不足——现在人型机器人在本体、关键的核心器件、传感器等方面有非常多要攻克的地方。

②运动控制方面的技术研发，采用深度强化学习的运动控制方式，包括现在也用一些AI 神经网络的方式用去做运动控制。

③智能的研发，例如用具身智能的方式，做具身智能的一些基础性工作，例如建数据集，去研发具身智能模型的框架等。

坚持源于热爱

星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇：我的兴趣来10岁左右对智能机器人非常感兴趣，例如对本田ASIMO 非常着迷。

但是创业充满了挑战性，例如Marc创办了波士顿动力公司，并已做了40多年，非常令人尊敬。假设没有一个发自内心的、天生的热爱，是很难坚持下来的。所以我对机器人的热爱，某种程度上是与生俱来的。但真正开始做是在大学本科时，当时在学校里接触了机器人，知道IHMC（人类与机器认知研究所）的一款双足机器人，当时我主要做捕获点的不太规范的研究，后来博士阶段继续做机器人，虽然不是人形，但也是相关领域，包括控制、无人车和机械臂等。

在我回国后，在清华接触了一个项目后，正式开始投入去做人形机器人了，后来孵化了星动纪元公司。如今，星动纪元最新一代的机器人是第六代产品。

关注新的智能体机器人

宇树创始人、CEO兼CTO王兴兴：我10 岁左右就看过波士顿动力公司在MIT 实验室做的单腿、双足人形机，印象非常深刻。之后在2009、2010 年——大一寒假时做过一个小人形机器人，但不太满意。在研究生期间又做了一款机器人，采用了低成本的硬件，运动性能非常好，可以直接实现关节的力控及整机的力控。开始时我对人形技术比较悲观，但是后来在2022年左右，随着整个机器人、AI 技术的进步，再加上ChatGPT出来以后，人们看到了人形机和AI 结合的可能性，所以宇树公司重新开始做高性能的人形机。实际上，宇树真正感兴趣的并不是人形机，而是新的智能体机器人的形态。

人形机器人只是目前人们比较公认的一种最有可能的“通用机器人+ 通用AI”的结合体，但是这可能并不是唯一的。宇树希望诞生比人类更高级的智能体，以大大推动人类的工业变革，推动新的工业革命。努力研发，使人形机走进千行百业、千家万户北京大学前沿计算研究中心助理教授、北大银河通用具身智能联合实验室主任王鹤：我与人形机器人和具身智能结缘，是从斯坦福大学读博开始，2016 年深度学习技术已经出来，也应用在了图像识别、分类等任务中。

当时作为一个前沿研究，人们试图去理解人类是如何把感知、思考和交互能力融合在一起的。所以我博士期间的第一个工作就是用一个视觉模型来看桌面上人的动作和物体的运动，然后推理人下一步想要什么。这是一个语言模型。最后再用一个简单的机器人——一个智能的马克杯去响应人的动作。

这个工作获得了欧洲图形学的最佳论文提名。但是它还有很多不足，例如马克杯只能在桌面上移动；机器人只能响应动作，没有跟人交互的能力；视觉只能看有限的几种物体；语言模型只能根据人与桌面东西的一些动作来做简单的推理。

通过过去8 年的研究，已取得了一些技术进展，例如怎样把机器人的操作能力做得更泛化——什么东西都能抓取和放置；还有跟现在的多模态大模型技术相结合，真正明白人类想让你干什么、言出法随地去执行。2023年我们还孵化了“北大银河通用具身智能联合实验室”这家人形机器人公司。现在把视觉、语言、动作这三种不同的模态融合到大模型中，真正赋能人形机器人。公司的愿景是：使人形机器人能走进千行百业、千家万户。

3 今天相比10年前的优势，未来5年将会怎样？

主持人：在你们看来，我们今天拥有哪些10 年前没有的重要技术？因为人们可能会有这样一个问题，为什么在2000 年时不可能看到今天的情况？对注重实际的人来说至关重要的：未来5 年，这个行业将如何发展？

硬件开发和AI 在进步

Marc（波士顿动力）：今天在很大程度上取决于硬件开发和AI。如果谈论未来5 年，硬件开发将继续发挥重要作用，毫无疑问，能够打破语义理解障碍的基础模型或其他AI 方法将是最具影响力的。

人类可以做的就是概括和理解他们所看到的事物的意义，但这种意义仍然没有被真正捕捉到，相信AI 能在这方面取得进展。其他将取得巨大进步的包括计算机、传感器、感知控制、电池等。

我认为人们忘记了电池——它是工业时代的产物，但电池真的很重要。所以在汽车行业，人们在过去的5年里把电池做得更好。

主持人：人形机也将从电动汽车的电池等技术发展中获利，当然还有消费电子。

5 年内可能迎来ChatGPT时刻

北京具身智能机器人创新中心总经理熊友军：从AI视角来看有非常大的不同：10 年前/2014 年左右，深度学习刚出来不久。它解决了图像处理等问题。之后有两个重要的里程碑：①以2016 年阿尔法狗为代表的深度强化学习，而不是学习。强化学习有非常长的历史，主要是深度学习出来之后，紧接着把它用在了强化学习上面。深度强化学习解决了强化学习的维度灾难的问题。②最近以ChatGPT 为代表的大语言模型。

所以这两个是过去10 年以前所没有，但是又对未来机器人、具身智能的发展起着决定性的作用的两种技术。

可能在接下来的几年，这两项技术会非常深度地跟人形、具身智能融合起来，但它们也分别需要经过一定程度的skill，强化学习也需要训练，做比较通用的模型。以大模型为代表，仿真model 也需要去skill，以解决更加丰富的物理世界的数据程序。

相信在接下来的5 年，这几项技术能取得大的进展。我们可能会在5 年内迎来ChatGPT 时刻。

机器人AI 模型的发展将很快

陈建宇（星动纪元、清华）：过去10 年最大的变化还是由AI 技术带来的，人们对AI 能做的事情有更多的信心了。

此外，对于本体企业，包括整个社会对人形机的共识也是非常关键的。目前人们相信人形机器人可以产生更多的价值，这在10 年前是完全不能想象的——那时整个社会对人形机没有什么信心。

在未来5年，机器人AI模型的变化会非常快。因为目前AI日新月异，人们可以用AI 集成技术去搭建各种自己的模型去做训练，整个已经变成一个非常扁平化以及容易化的操作过程。因此很多人可以参与进来，去做机器人模型、去做训练。所以未来5 年，各种AI模型创新，包括更新的神经网络模型、脉冲神经网络等，都有很多的机会。

过去实现完美抓取，未来还能夹拧掰

王兴兴（宇树）：自2014 年以来的10 年发展很快。10 年前我们已经看到了一些曙光。其实在那时，具身智能甚至不是一个在西方学术界流行的词汇。但过去10 年的一大技术进展是：我们在具身智能里已经有一些技能实现了非常强的泛化性。

以我个人的研究举例，在抓取的问题上已经取得了长足的进步：从只能抓方块、圆形等特定形状的物体，到基于三维视觉传感器，可以抓不透明、不反光的，在深度传感器里能完美成像的物体，到最近的技术能够预测透明、高反光金属、吸光等非常有挑战材质的物体的深度，基于它去做泛化的抓取。宇树现在已经能把抓取做得相当好。在此次机器人大会上，宇树等公司的展台上，机器人能接受观众给出的各种形状、材质、随便堆叠的物体。宇树的机器人展示了非常泛化和高成功率的抓取能力。

但是很多人会提问：你能帮我抓水瓶，能不能再帮我把瓶盖给拧开？非常不好意思，现在泛化的开瓶盖技能还没有训练出来。但这就是大模型能够带给我们的机会。那么语言大模型的涌现，也就是emergent behavior，能够在只见一次甚至零次的演示情况下，就理解你要生成什么样的文字。相信未来5 年，给我们的机会就是发展机器人的基础大模型，能够实现涌现能力。它吞吐了足够大量的数据以后，以灵巧手为例，它能够抓、夹、拧、掰……，能够做各种基本的手的运动。给它看一个视频，它就能理解这个活儿该怎么干。到那时，我们就有了一个通用的、至少是做操作任务的机器人了。

这是我认为未来5 年的一个机会。

人机交互、硬件与电池的变迁

北京大学前沿计算研究中心助理教授、北大银河通用具身智能联合实验室主任王鹤：这一轮机器人技术的进步主要是由AI 来驱动的，体现在几个方面：第一，人机交互能力得到了极大提升。记得10 年前做AI- 机器人的交互，如果要加语音、视觉，第一是成本非常高，第二，要做大量的研发的工作，需要几个博硕带着一个团队，花费很长时间才能够完成一些物体识别、语音合成，然后是自然语言理解、谬批，甚至是tts语音合成等方面的工作，甚至包括导航。

但是现在随着技术的进步，现在做VIA 的大模型，直接做端到端的语音给它，然后很快就可以有比较好的行为输出，有很好的意图理解，然后做任务规划等。这一轮的对人机交互、对任务的规划、执行等方面都有巨大的提升，这在10 年前很难去想象。

第二，在硬件方面也有巨大的提升，体现在两个方向：①关节性能的提升非常快，很多公司的机器人可以做一些动态、剧烈的运动，这离不开关节性能的提升——高的能量密度比、高的转速、高的性能等技术的提升，这在10 年前是很难做到的。②这离不开运动控制能力的提升，电机的提升。现在更多采用结构设计的方式，让布局等方面有非常大的进步，包括把腿转成惯量，把电机的性能往上提等各种各样的结构设计的技术变化。

第三，能量。10 年前我们做机器人的手段，一个电池就像我们背后要背一个非常巨大的电池包/ 能源包，而且能够持续的时间很短。但是这几年随着新能源汽车对电池技术的推动，电池的能量密度大幅提升。现在一个较小的电池就可以支持较长时间。这是一个非常重要的技术突破。

关于未来、5 年之后，这几个方向可能还是重大突破的方向。

第一方面，人机交互，希望大模型能提供更长程的任务规划、做意图的理解等方面。我们只要给它一个非常模糊的指令，它就可以输出标准、自然的交互的结果。

第二方面，是在实施路径的重规划方面，一个重大、要攻克的方向是随着环境改变，希望机器人能够实时改变执行策略等。

第三方面，在能量方面是持续要提升的，现在的执行效率跟人类相比还是有非常大的差距。

注1：“机器人”来自捷克语，作者将捷克语“Robota”写成了英语“Robot”。

注2：捷克语“Robota”是奴隶的意思，被当作“机器人”一词的起源。该剧预告了机器人的发展对人类社会的悲剧性影响，引起了人们的广泛关注。