戴盟机器人王煜：「具身技能」才能发挥人形机器人的作用

作者：赖文昕

编辑：岑峰

本月，在爆火的世界人工智能大会（WAIC 2024）中，人形机器人「十八金刚」成为了会场中当之无愧的焦点。

由青龙、智元-远征A2、宇树-H1、傅利叶-GR-1、星动纪元-XBot-L、乐聚-夸父4代等一众人形机器人组成的先锋阵列，作为「镇馆之宝」被陈列在展览馆进门处，成为了所有进场观众看到的首个惊喜。

在大模型技术的加持下，长出「大脑」的人形机器人被视为通向 AGI 的必经之路，「具身智能元年」似乎已经到来。

概念被炒得火热，但具身智能的故事仍面临着一个核心问题：「大脑」真的能带来质的改变并实现商业化落地吗？

对此，香港科技大学机器人研究院创始院长王煜教授提出了「具身技能」的概念。

「如果把具身智能称为大脑，那么中脑或小脑则是大关节控制，精细操作为细小脑，也可叫具身技能，需要有硬件、学习方法、数据的支持。」王煜教授解释道，「不到具身技能的层次其实无法发挥人形机器人的作用。」

作为戴盟机器人联合创始人与首席科学家，王煜教授在 1984 年前往美国卡内基梅隆大学（CMU）读博，师从 CMU 时任机器人研究所所长 Matthew Thomas Mason，是我国最早公派留学的学生之一。

彼时在这个顶尖机器人实验室中，Matthew Thomas Mason 与 Marc Raibert（波士顿动力创始人）堪称「CMU 机器人双雄」，分别带领团队研发机器人手部与腿部。作为少数的华人面孔，王煜教授成为了 Matthew 的第一个毕业博士生。

1989年，王煜教授获得 CMU 机械工程博士学位后，分别在美国马里兰大学、新加坡国立大学及香港中文大学任职，后在2015年与李泽湘教授共同创办了香港科技大学机器人研究院，并担任港科大机器人创始院长。

此外，王煜教授还获得过 973 首席科学家、国家杰青、长江学者特聘教授、国家科技进步二等奖等多份荣誉，并曾任 IEEE Fellow、IEEE 机器人与自动化学会制造自动化技术委员会主席以及 IEEE TASE 主编。

2021年末，王煜教授与学生段江哗博士共同创立戴盟机器人，致力于深度融合 AI 和机器人技术，研发和生产真正可商用的多系列通用仿人机器人产品。

今年3月，戴盟机器人发布首款心灵手巧型人形机器人 Sparky 1。

Sparky 1 拥有持续自主学习的智能大脑，多自由度仿人关节，多维触觉感知五指灵巧手，可通过外骨骼方案收集的遥操作数据进行机器人学习，技能包括但不限于插线束接口、焊接电路板、滴试剂、熨衣服、倒酒、物体分拣、整理书架……解锁了人形机器人在工业、研发、家庭、商业等多个场景的可能性。

Sparky 1 能实现「心灵手巧」离不开三大自研法宝：多模态集成技术、新型视触觉传感器和集成了视触觉传感器的五指灵巧手。

解决精细操作问题，成为了王煜教授与戴盟机器人的首要目标。

以下是 AI 科技评论与王煜教授的对话，内容经过不改原意的编辑：

触觉是精细操作的关键

AI 科技评论：您在2021年成立戴盟机器人，当时的契机是什么呢？

王煜：最主要是为了转化科研成果。经过多年的研究与实践，我深刻认识到触觉传感在人形机器人领域的重要性。随着人形机器人技术的不断进步和市场需求的日益增长，我认为，触觉传感器技术已经成熟，具备了转化为商业产品的潜力和条件。这一转化不仅能够推动人形机器人技术的发展，也将为其商业落地带来新的可能。

AI 科技评论：戴盟机器人为什么会将重点放在触觉传感器上呢？

王煜：有这样一个视频，一个眼睛圆圆的小女孩，视力很好，但她的皮肤却没有感知，当她想从火柴盒里取出火柴并点火时，能看得清清楚楚的她却需要比平常人花上多 5 倍的时间才能成功。

这个案例说明了触觉对精细操作的重要性，如果没有掌握到真正的操作能力和足够的信息，即使是看似简单的操作，如用螺丝刀拧螺丝，也难以完成，因为这需要真正的技能和手感。虽然 AI 和机器人技术在某些领域取得了进展，但在执行更复杂的任务时，仍然存在局限性。更精细的操作能力和真正的技能是目前技术难以实现的，不能光靠视觉和强化学习。

具体来说，从视觉和图像出发可以建立多个 pick and place 模型，实现位移。但精细操作还需要手能做功，根据力的反馈做精细运动，就像工业界装配中存在公差，比如拧螺丝时空隙较小，需要更大的力，所以需要熟练工人操作，这就是技能的问题。

戴盟想要做有精细操作能力的机器人，有了触觉传感和手，机器人就可以自己探索、学习、掌握技能。如果把具身智能称为大脑，那么中脑或小脑则是大关节控制，精细操作为细小脑，也可叫「具身技能」，需要有硬件、学习方法、数据的支持。不到具身技能的层次其实无法发挥人形机器人的作用，我们不能只有pick and place，比如拖地这个操作不止是拿起拖把，还需要用力拖地。

AI 科技评论：那现在触觉的探索有什么新发现以及有哪些技术路径呢？

王煜：前沿科研探索发现，人手的神经有三类，有一些神经能记住手指受力变形中半秒钟的变化，还会利用半秒以前变形的历史指导下一步。这意味着部分手部操作不需要大脑控制，触感信息的处理在手上的神经系统就可以完成计算。当然，在新的、复杂的环境，就需要大脑的参与。

灵巧手的手指需要有触觉传感器收集信息、进行力反馈，还要能控制。主要是两种思路：一是产生数据后学习，建立多个小模型再整合，如开盖、拧螺丝等不同操作各有小模型；二是由数据驱动，像人一样学技能，类似马斯克机器人的端到端神经网络，甚至不一定需要全面的模型。

但无论哪种方法，最基本的要求是，灵巧手的功能要做到足够好，触觉传感信息充足，人手与机器人灵巧手的触觉信息都需要采集，这也是戴盟十分重视的环节。

把灵巧手做到极致

AI 科技评论：那在「具身技能」这样的关键点上，除了触觉传感器之外，您认为还需要哪些关键的技术？

王煜：除了触觉传感技术外，灵巧手是否「够精致」，同样十分关键。如果偷工减料，技能表现将大打折扣。因此，追求极致的精细度至关重要，比如电机够多够好，尽管这可能会导致成本上升。

目前市场上较为畅销的产品通常只有9个自由度，而像马斯克所提的至少需要12-15个自由度。如果产品不能达到高标准，就无法满足高技能要求，进行有效操作。只有保证基础牢固后，我们才能去探究如果精细操作出现问题，到底是传感信息不足、学习方法不当还是模型不完善。当然，自由度低的灵巧手成本更低，肯定有特定的应用场景，但无法满足很多技能需求。

不过戴盟从一开始就致力于将手部做到极致，再根据需求降维开发不同的产品，即当产品不需要高级技能时，我们可以降低成本，减少自由度，但需要明确的是，往下走的路很清楚，但更需要做到往上走，即当有高级技能需求时，我们的产品也能满足。

这其实和波士顿动力的理念是相似的，他们是将腿部做到极致，赋予了机器人强大的能力。我们认为，只有通过这种方式，才能充分发挥机器人的潜力，并根据市场需求定义产品，同时控制好价格。

AI 科技评论：您在之前的采访中提到，机器人的「灵巧手」比「足」更难发展，这是为什么呢？

王煜：主要问题在于灵巧手手部操作的难度较高，与腿部操作不同，手部操作的难点不在于动力学本身，而在于与物体互动时达到一定技能水平的工作。

简单来说，灵巧手的硬件技术尚未跟上。手的硬件比身体和腿都难做，进程较慢，以前手指关节的驱动系统使用线缆拉动，会存在反馈时间延迟，影响操作效率。但现在的全电又对空间有要求，空间有限，电机得做得越来越小，优质的电机还很贵，每个约1万人民币，想做15个自由度的灵巧手，光电机的成本就15万了，所以现在每家企业都需要有自研电机的人才。

软件方面，灵巧手的进展也相对落后。与已广泛应用于工业自动化领域、通过预编程控制的夹爪或机械手不同，灵巧手的抓取模型等都不够完善，目前还做不到将精细操作技能反映在程序中，实现自动化操作。

我们这批最早研究灵巧手的人一开始认为精细操作和技能是物理问题，只需做好模型后解决控制即可，后来发现涉及的因素太多，物理模型无法准确覆盖。机器人的手是硬的，人手却是软的，因此模型并不准确，不是真实物体的模型，但如果要做真实人手的物理模型，很容易发现，这是做不完的。

另外，传感技术也存在不足，手部缺乏足够的物理信息反馈，这影响了操作的精确性。而且，如果仅依赖视觉反馈，信息量也是不够的。因此，自 2012 年 Schunk 的 SVH 灵巧手以来，灵巧手的发展相对缓慢，尽管有了一些进展，但整体上仍然面临挑战。

与之相比，腿部硬件的发展较为成熟，从大功率到全电动，国内外已经形成了一条完整的发展路径，成本也得到了有效控制。从全球来看，波士顿动力表现最为出色，其最新的产品完全摒弃了机械性，转而采用全电动，成功解决了复杂的动力学问题，实现了精确控制，甚至能够完成翻跟头等动作。值得关注的是，模型预测控制（MPC）在1980年左右被开发出来在石化领域普及应用，而波士顿动力坚持将 MPC 控制人形机器人这条路走通了，这如今成为他们的招牌技术，也给现在的人形机器人控制奠定了良好的基础。

正在倒酒的 Sparky 1

人形机器人不能只依赖视觉模仿学习

AI 科技评论：感觉您对「大脑」的态度比较谨慎，那您认为人形机器人还需要在哪些技术方向做出突破呢？

王煜：最近十年，AI 技术的发展打破了机器人传统的 pick and place 模式，具备基础的理解能力以及能做更智能的操作规划。现在人形机器人行业内引领潮流的是 AI 大模型与视觉图像，这种思路更重视「大脑」、与人的交互，成果也比较直观，比如在家庭场景中最重要的是机器人如何理解人的需求，在人饿的时候拿来食物、甚至用微波炉加热，但需要注意的是，具体到执行切苹果的操作技能，中小脑、甚至是细小脑就十分重要了。

随着 AI 大模型的兴起，通过视觉技术和模仿学习，简单的二指或三指就可以实现基础的拖拽操作。但实际上，现在只能完成一些抓取杯子、倒水或洗碗的简单任务，在更复杂的工业和家庭场景中远远不够。

值得关注的是，操作技能不可仅依赖基于视觉感知的模仿学习，仅依靠视觉感知不够，需要在收集的数据中引入触觉信息。有的技术思路是自研数据采集手套，由人带上后采集信息，并让机器人也带上同样的手套。现在进展比较好的是由人带上两指爪，并安装上相机假装洗碗，然后机器人通过模仿学习在旁边洗碗。但碗如果太重太滑，没有及时调整，这就是没掌握好技能。

我们需要认识到技能的重要性和难度，尽管触觉传感器技术太难、成本太高、很少人做，但依旧有往这方面突破的强需求，因此戴盟还有市场空间。

AI 科技评论：在您看来，人形机器人会在哪些场景率先商业落地，戴盟对此有什么计划？

王煜：主要还是工业场景。比如汽车装配有大操作和小操作，虽然大操作更多，但只要有工具就会有小操作。包括半导体生产线，每个工人负责一道工序，但如果人形机器人只学一个技能、替代一个工人，实在是太浪费了。机器人需要能适应不同的任务，要代替至少5个工人做精细化操作才有价值。

工业场景对「大脑」的要求相对低些，因为做的事情很具体，甚至不需要理解，比如现在的工业机器人在特定场景下执行固定流程的任务。难度更高的任务需要使用工具，具体执行是做功，需要根据力和加速度信息执行，比如抬起、安装轮胎，就是一个突然加速到突然减速的过程。

戴盟下一步会先把触觉灵巧手和含触觉的上肢操作模型做好，先走入高校科研单位，因为价值在科研单位被认识到就会培养一批有想法的人才。在工业场景，比如柔性物料和精密装配的自动化，如果戴盟的灵巧手能够实现无可替代的操作能力的话，商业价值自然会被认可。

本文作者 anna042023 将持续关注具身智能领域的人事、企业、商业应用以及行业发展趋势，欢迎添加交流，互通有无。雷峰网(公众号：雷峰网)雷峰网