人形机器人“动起来了”，距离真正的“智能”还有多远？|机器人_新浪财经

2024.08.28

导读：人形机器人已有明显进步，但还远未达到人们的最终期待。无论如何，即便并不完美，人形机器人今年已在加快走向商用。

本文字数：6132，阅读时长大约10分钟

作者 | 第一财经郑栩彤

今年两大人形机器人盛会上，业内关于人形机器人的评价似乎分成两极——世界人工智能大会“十八金刚”才艺展示引发观众驻足，但也有参展者“抱怨”一些机器人还得吊着、站都站不起来；上周刚结束的世界机器人大会上，人形机器人热度空前，27款展出的人形机器人数量为历年之最，有人形机器人从业者向第一财经记者感慨今年人形机器人“能动得更多了”，但也有从业者称“各家演示视频拍得挺好，但实际上能（像视频）走起来演示的很少”。

两种评价背后，是人形机器人已有明显进步，但还远未达到人们的最终期待。无论如何，即便并不完美，人形机器人今年已在加快走向商用。

近日“稚晖君”彭志辉的智元机器人一口气发布了五款商用人形机器人新品，并透露工厂进入量产最后准备阶段，今年公司双足人形机器人出货200台左右；港股“人形机器人第一股”优必选副总裁、研究院执行院长焦继超告诉记者，公司人形机器人在汽车行业的意向订单大约500台。

乐聚（苏州）机器人技术有限公司总经理王松近日向记者表示，“公司人形机器人的合作伙伴已包括海尔、华为、蔚来等。”星尘智能CEO来杰也告诉记者，“上次发布视频后，找我们的订单非常多。”

特斯拉CEO马斯克则在前段时间透露，明年特斯拉将开始“限量生产”Optimus人形机器人，届时特斯拉将有超过1000台乃至数千台在运行的Optimus。

▲特斯拉人形机器人Optimus

虽然距离“好用”尚远，但人形机器人加快迈向“能用”已是事实。站在量产的起始点，人形机器人的实操能力到底如何？可以期待具身智能像大模型般一夜间智能涌现吗？第一财经记者近日与多名人形机器人从业者交流，尝试还原人形机器人得以走向量产的过程，并探讨AI如何让人形机器人继续迭代。

“机器人动起来了”

“人形机器人已经从以往的demo秀、静态展示走向应用落地。去年大部分厂商放了一个硬件来展示，动都不能动，应用更不用谈了。而今年大家都非常重视应用，能动的机型越来越多。应用也越来越聚焦，基本聚焦在工业场景。”焦继超告诉记者。另有参加世界机器人大会的人形机器人从业者向记者提到，过去行业更讲究人形机器人的移动能力，这次明显更强调操作能力。

机器人能动、能操作指向了应用落地。不论是特斯拉、优必选还是乐聚等，落地初站都选择了工业，其中又聚焦汽车工业。高工机器人产业研究所（GGII）所长卢瀚宸告诉第一财经记者，制造业细分行业中，汽车是行业基底最大的行业，且自动化程度最高，导入机器人的意愿相对强烈。业内人士则告诉记者，从机器人的发展阶段看，初期导入工业最容易。

“汽车、3C制造等工厂对人形机器人都有强烈需求，问题是人形机器人行业的硬软件能力还无法完全满足制造业的所有需求。目前很多制造业工厂愿意开放跟机器人能力匹配的工位，如搬运、质检。”焦继超告诉记者，人形机器人应用可分为工业、商业服务和家庭场景三个阶段，三个阶段渐趋复杂，对产品的性能要求和对价格的敏感度越来越高。人形机器人厂商选择先落地工业，是因为能在工业场景将底层核心基础技术如定位导航、感知、目标识别先打磨好，同时在高负载高频率的工作环境中测试、优化硬件结构与机器人系统稳定性，为未来进入其他场景做铺垫。

在过去一年多时间，不只有新生的大模型为人形机器人产业带来改变，上游供应链形成、硬件成本下降也是人形机器人撞开量产大门的推手。

“在大模型出来前，硬件相关供应链生产水平到了一个阶段，再有一些商业化落地场景被大家看到，关注度一下子就起来了。”王松告诉记者，近一年多供应链变化明显，例如以前找不到专门的人形机器人零部件，只能从别的行业如协作臂的供应链拿，拿到的部件技术路线跟人形机器人的技术要求不同，导致人形机器人集成度不高、精度不够、稳定性不佳，核心零部件只能公司自己做。而现在，虽然谈硬件标准化尚早，但供应链已经起来了。

“我们在深圳接触的供应商非常多，发现供应商不一定是没有能力（进入人形机器人领域），而是没有形成完整市场链条时不愿投入，只要供应商开始转型，行业就会发展。”来杰表示，很多上游供应商已在考虑技术如何应用于机器人并做内部转型，预计两年内市场就能形成完整链条。

UniX AI创始人兼首席执行官杨丰瑜对记者表示，机器人产品能够起量取决于产品研发、工程能力、供应链优势。

从耶鲁大学计算机专业获得博士学位后，年仅23岁的杨丰瑜在去年开始了自己的具身智能机器人事业。杨丰瑜认为，国内独有的供应链优势让机器人产业具备了极强的供应链资源，只要融合国内优质产能，目前进行大批量的产品交付已经不是问题。

焦继超告诉记者，研发迭代和上游供应链规模起来后，今年人形机器人价格整体比去年下降了40%~50%。随着人形机器人在工业场景的性能逐渐稳定、数量增多，预计整机成本还将继续下降。

2022年年底ChatGPT出世，在随后的一年多时间大模型则给人形机器人安上了“大脑”。多名人形机器人厂商告诉记者，在人形机器人语境下，大模型等同于“大脑”，人形机器人本体厂商多专注做本体和“小脑”，“大脑”则与外部合作。大模型给人形机器人带来的改变在于泛化性，具体则用于人形机器人动作的决策规划。不同于算法固定编程，泛化性可理解为“举一反三”的能力。有了“大脑”，人形机器人进工厂“打工”也成为可能。

“机器人有三层泛化，第一层偏向感知，即认识第一个东西后能不能认识第二个东西。第二层偏向动作，即做出第一个动作后如果环境有所调整，能不能适应做出第二个动作。第三层偏向任务，即完成第一个任务后相关的任务能否完成。”来杰表示，大模型带来更多地在于任务上的泛化。

王松形容，大模型在机器人身上的泛化性更多体现在工程层面，例如“能抓一瓶可乐，变成雪碧时也能抓取”，雪碧或可乐在工业场景中可替换成各种物料。大模型泛化性体现在任务流程安排以及对不同物品的理解。在大模型智能涌现之前，业界不太知道如何实现泛化，而若不依赖泛化能力、靠专业化编程完成各种任务，对应工作量很大。大模型给机器人提供了一种新的任务规划思路，行业“见到了希望的曙光”。现在人形机器人有了“大脑”，大小脑便能配合，由大脑做感知理解，小脑做具体动作执行。

在工厂中，一台人形机器人是这样运行的：王松告诉记者，小脑向大脑提供接口，小脑执行腿部移动、手部运动，负责“向上或向下拧一厘米”和抓握等动作，大脑则负责动作分配、遇到异常情况如何打断重组动作的部分。

焦继超以物料分拣场景举例：人形机器人要识别几百上千种物料，需要用到高性能且泛化性好或者能快速训练而成的模型，还需要多模态大模型的感知能力。当工作流程出现异常情况，例如抓取、分拣的物料没有抓住，大模型应该知道下一步如何做，这体现了大模型的决策能力。此外，机器人识别并计算出物料的6D位姿后给到运动控制模块，端到端的小模型（小脑）则判断要从什么部位抓起不同物料，这种小模型用到了强化学习和模仿学习。

人类经过漫长进化时间学会的简单动作，对人形机器人而言却是复杂的，等到大模型出现，人形机器人才开始学会用大脑思考并进入工作岗位。

大模型做不到的

虽然大模型给了人形机器人一束“曙光”，但人形机器人的AI能力绝非来自大模型一种。作为AI技术的集大成者，人形机器人受到各种技术的牵引和羁绊。拆开看这些技术进展，或能更好理解目前人形机器人的能力和局限。

今年与人形机器人相关的细碎事件中，藏着一些重要进展。年初斯坦福大学炒菜机器人Mobile ALOHA机器人亮相。这台机器人可通过神经网络学习人类双手操作，经过学习数十次演示，机器人可完成自主煮虾、擦桌子、洗盘子等任务。业界将其视为模仿学习的突破。年内，还有机器人厂商展示了双足机器人走出实验环境、在自然环境行走的能力。以逐际动力的双足机器人为例，该公司创始人张巍介绍，机器人背后有强化学习技术的突破，该技术“开关”是在最近一年左右时间发现的。

模仿学习可认为是机器在模仿人类行为中学习，好处是，模仿学习不像大模型，无需极大量数据训练就能学习并完成某些任务。强化学习则能理解为人为给机器人设立一个目标，让机器人在不断试错过程中通过奖励和惩罚，学会作出正确决策。

焦继超认为，过去一年与人形机器人有关的主要技术突破正是基于模仿学习或强化学习的端到端操作。基于强化学习的运动控制步态能让机器人在实际场景更多应用起来。模仿学习则在特定环境下机器人的双臂灵巧操作有较好表现，且可较快落地，减轻复杂任务操作上的一些困难。“但不论是强化学习还是模仿学习，泛化性都是比较大的挑战。且模仿学习在很大程度上还依赖人工遥操作采集数据，对数据质量要求较高，这些数据很难在模拟环境中生成。”

杨丰瑜则对记者表示，人形机器人是系统的工程，既涉及硬件也涉及软件，目前硬件和软件发展速度上显然有一些不匹配。大模型能思考，但是指挥不动本体，指挥不动硬件。而对人形机器人来说，本身身体还不够结实，能完成的任务很少，在这个基础上做具身智能开发相对难度比较大。当然本体和大脑是互相制约的，本体开发很好，大脑没有达到水准，应用场景也会受到制约。

“先从本体迭代切入点，再加入基本应用，达到一定程度后，本体做比较大的收敛，然后应用才会开始蓬勃发展。现在大模型技术路线还是依靠海量的数据，像ChatGPT3.5、ChatGPT4，基本把人类所有数据读了一遍，数据在具身智能里毋庸置疑是非常关键的。”杨丰瑜表示，技术需要不断迭代，先有硬件，然后有数据，建模型形成闭环。

“近一年AI的主要技术进展除了大模型带来的机器人决策能力提升，还包括深度强化学习和模仿学习的突破。王松告诉记者，强化学习解决了人形机器人的动作问题，增强了对复杂环境的适应能力。模仿学习则与大模型的相关技术架构比较像，它提供了一套机器人端到端的控制思路，其背后也是一套针对特定场景任务的模型，但参数量不是很大。”王松称，模仿学习还是有走向通用泛化的可能，届时参数量一定会非常大。下一步，模仿学习将集中解决泛化能力较差的问题。例如，斯坦福炒菜机器人一个小模型一次只能完成一个任务，现在出现了新的思路，如谷歌的相关模型在一个模型中能完成多种任务。

大模型方面，除了在决策规划层面发挥作用，年内多家厂商还展示了人形机器人结合大模型后的互动能力。例如，Figure AI人形机器人接入OpenAI模型后，能伸手拿起桌上的苹果并解释这么做的原因。优必选则展示了人形机器人接入百度文心大模型后的表现，该机器人也能与人类对话。

不过，交互能力在工业等场景并非必需，实际上，大模型在人形机器人身上的应用还不够广泛，本身也有颇多局限。

例如，人形机器人身上负责执行动作的小模型可以由大模型蒸馏（轻量化）而成，但这并无必要。王松称，蒸馏后的小模型效率和执行精度比不上传统的运动控制，简单的正逆运动学算法已很准确，用模型求解更像走弯路。

此外，大模型作为“大脑”，把大模型参数量做大、以此提升模型能力也不太可能。大模型推理需要耗用算力，背后也需要充足的电力支持。

优必选人形机器人搭载的大模型最早是70亿参数，目前参数则是10亿左右。焦继超表示，大模型推理对硬件CPU、GPU要求较高，而人形机器人硬件算力水平与桌面级服务器相比还有较大差距，如果大模型不做轻量化就难以在端侧运行。“（端侧算力限制背后）算力芯片、电池两个原因都有，目前小型化算力板不多，且双足人形机器人结构空间受限，不能搭载太大的电池（以供给计算）。”王松称。

往后看，业界对大模型的期盼远不止让它作为“大脑”提供任务规划决策，而更希望大模型能更“顺滑”地整合机器人全身，这可以简单理解为用整套神经网络控制机器人，体现为与人类相近的具身智能。多名业界人士向记者表达了类似的观点，即希望未来大模型能集成小模型，做到真正的端到端（End to End），例如机器人在了解周围环境后能“天然”地知道该怎么做，而无需机械地将机器人运作过程分层为感知、规划、控制等模块，对机器人施加太多控制。端到端神经网络是一种类似人脑的工作模式，在自动驾驶领域已经过一定验证。

但端到端要在人形机器人身上实现并不容易。

真实数据缺少

焦继超表示，目前行业还无法实现用纯端到端的方式完成某项任务，例如抓取任务中的识别、感知等由同一个模型输出，但希望未来用端到端能力，让人形机器人能根据突发情况自主完成任务。

“现在自动驾驶做端到端，（达到）L4级别无人驾驶，而在十年前智能驾驶也是分为感知、预测、规划、控制四个部分，后续才逐渐合并，积累到足够数据量时才尝试端到端训练，获得能力上很大的提升。”来杰称，机器人应该也是这个路径，当数据积累到足够大时，自然会解答“是否合并”等问题。有人形机器人从业者告诉记者，目前做不到完全端到端，一大原因是训练所需数据量不够。

与大语言模型的数据瓶颈相似，数据量不足成为人形机器人智能化发展的一大掣肘。不同之处在于，大语言模型数据瓶颈源于互联网可用的文字资料逼近极限，人形机器人的数据瓶颈则在于真实数据难以获取。

焦继超称，在VLA（visual language action）数据缺少的情况下，大模型参数量如果较大，训练很难收敛。目前visual language数据量较多，但加上action运控数据，数据量少，而运控数据无法通过模拟的方式生成，因为这类数据需要通过硬件收集，且需要在真实环境下收集，如果采用仿真数据，会出现过拟合问题。

“特斯拉做无人驾驶也是在一开始采集大量真实数据，逐渐构建世界模型，再（从用户开车的实践中）采集真实数据。前提是要有足够的真实数据。”焦继超称，优必选通过搭建真实场景采集数据，与用户合作采集并使用部分仿真数据，真实数据量需要远高于仿真数据。要在有足够好的模型能描述物理世界，甚至与物理世界运行规律完全一样的情况下，所使用的仿真数据才能超过真实数据。

“我们用仿真数据、人体动捕数据、机器人实操数据。”来杰称，硬件是数据的来源，这也是为什么人形机器人硬件和AI需要同步发展。最有价值的是从机器人本体而来的数据，搭建数据工厂、行业共建数据集是值得尝试的办法。

“最后还是要靠大规模的真机数据来完成的，只有真正使用之后，有真实的数据，技术才能不断演进。”杨丰瑜说。

腾讯首席科学家、腾讯Robotics X实验室主任张正友在7月底“AI时代的人机关系展望”论坛中也指出具身智能数据稀缺的挑战。他表示，Open AI最初希望直接通过机器人达到AGI（通用人工智能），由于数据的缺乏后面放弃了，数据问题还是需要解决。

具有启发性的是，在数据层面人形机器人已体现的软硬件强耦合，可能还会继续体现在人形机器人后续的发展中。焦继超告诉记者，机器人自主能力的体现还需关联硬件，如果硬件性能达不到，软件再强也只是停留在仿真环境。王松称，人形机器人的软件和硬件是强耦合关系，彼此需经过相互迭代过程。

“大模型时代有人认为大模型很厉害，放到机器人上马上就能够实现（AGI），实际上不是。”张正友表示，打个比喻，现在相当于20岁大脑放在3岁的身体上，机器人虽然拥有一定的移动能力，但操作能力非常弱。而真正的具身智能要能自主学习和处理问题，对环境变化和面对不确定时能自动调整和规划，这是具身智能通往AGI或打造通用智能机器人非常重要的过程。张正友表示，将大模型“塞到”机器人头中，只能达到部分智能，还要待智能与本体有机融合，机器人与环境交互中才能涌现真正的智能。