“具身智能”能带领这波机器人热走多远?|五源小酒馆Vol.17 x 硅谷101

“具身智能”能带领这波机器人热走多远?|五源小酒馆Vol.17 x 硅谷101
2024年06月03日 10:56 市场资讯

视觉、语言理解等多模态大模型和仿真训练技术的结合像是给机器人打了鸡血,让它们变得越来越聪明,行动能力越来越强,越来越像人。“具身智能”的出现,让机器不再仅仅是被动的计算设备,而是能够主动与物理世界互动的智能体。

从特斯拉的Optimus到波士顿动力的Atlas,这些类人形机器人的进展似乎预示着“莫拉维克悖论”的终结,即机器人在感知和运动任务上的困难正逐步被克服。随着技术成本的降低和成熟度的提高,人形机器人的商业化应用是否已近在咫尺?在这场竞赛中,哪类玩家能够抢占先机?AI加持下的机器人行业有哪些新的工具和技术,还需要经历哪些挑战?

这一期五源小酒馆,我们联合硅谷101,五源董事总经理陈哲(Peter)与NVIDIA中国区机器人业务负责人李雨倩 (Lily) 、硅谷101创始人泓君分享了他们对机器人行业的见解。

以下是部分对话内容

过去一年,机器人行业有哪些变化

泓君:过去这一年行业里面发生了什么变化?因为从我的观察来看,不管在融资还是在话题关注度上,机器人行业它在变得更火了。

陈哲:回顾过去一年,我认为机器人领域发生了很多变化,可以归纳为几类。一是大模型的进步,无论是传统的语言模型还是视觉语言模型,它们都开始应用于机器人的决策和认知任务,极大拓宽了传统机器人在控制决策方面的限制,让人们看到了机器人技术快速进步的可能。

第二是机器人技术自身的进步:在控制、仿真、模仿、学习等领域,机器人技术也取得了显著进展。比如NVIDIA提供的仿真器和训练环境,让机器人能通过模仿学习或强化学习,更快地完成底层控制和仿真,无论是四足、两足还是更复杂的机器人形态。

第三是行业巨头和创业公司的投入。以特斯拉为首的行业巨头开始大量投入人形机器人或具身智能相关的研究与开发。中国和海外也涌现了众多创业公司,利用成熟的硬件供应链,进行各种足式机器人或新形态机器人的研发。一些令人振奋的产品或Demo也应运而生。

泓君:这一轮大家对机器人的关注,很大程度上与大模型能为机器人带来什么有关。换句话说,大模型的进步是如何影响机器人行业的?

陈哲:首先我们把机器人的能力或者任务拆解一下。一个经典的框架是把机器人分作感知、规划或者说决策,以及控制。简单来说,机器人需要知道它的环境和外部输入,同时在知道外部输入和自身状态的基础上,进行短期和长期的规划和预测。然后到了硬件层面,执行器需要把规划控制执行下去。

大模型最直接的是语言模型,因为它们拥有很好的常识和推理逻辑能力,可以对机器人的规划和控制产生上层的影响。最初可能是从Google在2022年推出的PaLM-SayCan 技术开始,这种大模型与机器人执行的结合。到了2023年,通过视觉语言模型如 PaLM-E,实现了感知与规划的结合。到了2023年底,Google又推出了像RT-1、RT-2 这样的模型,通过Transformer的方式,把控制环节也由大模型去推动和实现。

我们看到的一个趋势是,大模型不仅参与了上层的机器人规划,也开始进入了机器人的感知和控制底层任务环节。这是机器人领域发展了这么多年,第一次出现了这样一个由学习算法驱动,有一个非常大的预训练模型来推动控制的变化。这也是过去一年我们看到的技术上面最大的突破。

泓君:你提到PaLM-E和RT-1、RT-2,它们其实研发出来有一段时间了,为什么是这个时间点火?是不是从平台研究出来了,到真正的使用落地还需要一段时间?

陈哲:像Google研究院推出的产品,如PaLM-E,代表了非常新颖的想法。PaLM-E的最大特点是将Google传统的语言模型与机器人的具身能力相结合。在此之前,人们并未尝试将机器人与大型语言模型的上层推理能力结合,这是一个逐步发展的过程。就像2017年出现的Transformer技术,直到2020年才出现了GPT-3,到了2023年才出现了GPT-4,技术的成熟和普及需要时间。

机器人领域面临的挑战在于,实体和测试环境并不像纯语言模型那样方便。因此,当这些模型真正应用到机器人场景时,需要一定的时间来实现。RT-1和RT-2也是Transformer技术逐渐扩散的结果。在Transformer技术成熟之后,我们首先看到了将视频与Transformer的编码结合的Video Transformer方式。对于RT-1和RT-2来说,更重要的是将机器人的执行动作与Transformer框架结合起来,这可能是在过去一年才开始有人们积极研究和尝试的方向。

如何训练机器人?

泓君:最近有一个词很流行,叫做“具身智能”,可以简短给大家解释一下,我们说具身智能、人形机器人和机器人之间的区别是什么?

陈哲:自我性的交互是一个很重要的特点。当我们讨论具身智能(Embodied AI)时,它的反面是非具身智能,或者说我们传统讨论的软件智能或算法智能。核心的意思是,在定义具身智能这个概念之前,有一套不同的关于智能的理论,认为智能可以在没有物理实体或身体的情况下,通过符号计算和算法处理来实现。

传统的AI系统通常是没有物理实体的,它们不需要与物理实体交互,就能达到预期效果。但具身智能最重要的是它必须有一个物理实体或机器实体,这个实体需要与环境产生互动。智能行为不仅来源于固定的算法,还来自于与外界环境的交互。

当我们提到具身智能时,实际上是要强调它具有实体以及这个实体要与外部环境进行交互。我们发现,无论是人形机器人还是传统机器人,一部分传统机器人其实不需要对外界有自主响应,它们可能是自动化设备,不断重复预设的程序。随着AI技术的发展,具身智能实际上极大地拓展了传统机器人的定义。人形机器人则是在传统机器人定义基础上延展出来的形态,更像人,更加灵活和通用。

泓君:当大家谈论机器人时,会涉及到多种类型,比如四足机器人、双足机器人、机械臂,以及人形机器人。关于这些不同机器人的技术差异以及它们的通用特征,能否为大家解释一下?

陈哲:机器人技术可以想象成一个频谱,从专用、自动化、重复性高的机器,到通用、灵活、类似人形的机器人。在频谱的最左端是自动化机器手臂,它们执行重复性任务,主要依赖底层控制,如关节的重复动作。而频谱的最右端是通用的人形机器人,它们需要执行复杂任务,要求有高度的灵活性和自主性。

从技术角度来看,机器人的三个核心模块是感知、规划和控制。专用机器人可能不需要感知和上层规划,只依赖于底层控制。随着频谱向右端移动,机器人需要更强的环境感知能力和任务规划能力,技术复杂度随之增加。AI在感知和规划方面扮演着越来越重要的角色。

对于最右端的通用机器人,它们需要强大的感知、规划和控制能力,因为它们可能拥有更多的关节、传感器,并需要执行长期和短期的复杂任务。虽然底层逻辑是相通的,但随着对机器人灵活性和自主度的要求不同,技术深度也会有很大差异。

泓君:关于机器人,马斯克有拉一个擎天柱出来,波士顿动力的机器人也是有人形的,机器人一定需要是人形的吗?大家对这个问题是怎么思考的?

Lily:人类劳动力短缺是一个现实问题,而很多任务在设计之初就是为人类执行而考虑的,比如操作和搬运任务。因此,人形机器人被视为未来理想的终极解决方案。然而,在实现这一目标的过程中,可能会出现一些过渡性的机器人形态,例如机械臂、多个机械臂组合,或者在移动平台上安装两三个机械臂等复杂机器人形态。

泓君比如说我们让一个机械臂有三个手臂,这样它就可以两个手臂搬箱子,一个手臂分拣。

Lily:是的,可以做协作,它其实跟人的这个执行任务也是一样的,也是一个多个执行关节进行协作的载体。

陈哲:关于人形机器人的必要性,我们可以从理性和感性两个维度来考虑:理性上,由于人类社会和工作环境是为人类设计的,因此人形机器人能够迅速适应这些环境,成为最灵活和通用的机器人形态。此外,统一人形机器人的设计有助于实现规模化生产,从而降低成本,使得机器人的数量能够达到数十亿甚至数百亿台。尽管目前技术尚未成熟,实现高度仿真的人形机器人还需要基础技术的突破和进展,但从理性角度来看,人形机器人是未来发展的理想目标。

感性上,许多对机器人有深厚兴趣的爱好者和极客对人形机器人有着强烈的情感寄托和憧憬。未来主义者可能会接受一个观点,即人类的文明可能会从碳基文明逐渐过渡到硅基文明,未来社会可能会有大量机器人与我们共存,甚至超越我们,延续我们的文明,并在宇宙或星际中进行探索。在这种情况下,人形机器人可能成为人类文明的象征,与我们建立更强的情感联系,并继承人类文明的各种美好梦想。

泓君:我觉得有时候是不是人形机器人也可以更多地博取一些同情分,比如说有的时候我看到有人在踢一个人形机器人的时候,因为它的形状太像人了,所以就会有一种它会被疼的那种,虽然我知道它不会疼,看上去会有一点心疼的那种感觉;但如果比如说有人在踢一个铁皮子或者箱子,大家可能就觉得还好。

那接下来其实有一个问题是问 Lily 的,我们在谈到这些机器人的时候,他们对芯片或者 GPU 的要求会高吗?

Lily:这个完全取决于他们的应用的功能诉求,因为它需要对场景有非常充分的理解,需要多模态的一个输入,所以它就会对 GPU 的要求会越高,也就是说它对 AI 的能力要求越高,它就会对 GPU 的能力要求越高。

机器人的商业化前景

泓君:在更加垂直跟更加泛化的机器人商业化上,Peter更看好谁?有发生什么样的变化趋势?

陈哲:这是一个大家很关注的问题,但要给大家泼个冷水:实际上,通用机器人目前并没有商业化的先例,或者说还处在非常早期的阶段。虽然大家对机器人的商业化充满期待,但我们必须意识到,今天的通用机器人仍然处于前期研究和底层技术突破、技术探索的阶段。

目前市场上真正出现的产品,基本上都是针对各种专业场景或具体细分场景的机器人。即便如此,真正成功的、规模能达到百万台甚至千万台的机器人场景也是非常少的。这背后反映出,机器人的商业化是一个非常复杂且困难的过程。这不仅涉及到技术的突破和创新,还需要与市场找到良好的需求契合,同时在成本和可靠性上满足客户的需求。

我认为,机器人的商业化实际上是一个漫长的过程。对很多创业者或投资机构来说,他们很容易低估机器人在短期内遇到的困难,而更多地关注长期的可能性。

泓君:因为我知道你非常早就开始投机器人了,你觉得之前的垂直应用的机器人的商业化做得好吗?

陈哲:虽然我们今天看到了众多的机器人研究和演示,包括各种形态的人形机器人、足式机器人等,开发版也很多,但真正能够实现商业化的机器人品类,比如能够卖出100万台的,其实是相当少的。要知道,每年手机的销量是30亿台,汽车也有一亿台的销量,相比之下,机器人领域一年能卖出100万台的品类非常罕见。

目前来看,真正实现商业化的大类别机器人主要有几个。在家用场景中,像扫地机器人、割草机器人这样的自主机器人已经商业化。在商用场景中,最大的可能是仓储自动化,比如亚马逊的Kiva系统,出货量已经达到了100万台。

此外,无人机也可以视为机器人商业化的一个场景,以大疆为代表的航拍无人机、消费级无人机或工业无人机,销量也达到了百万台级别。如果以百万台作为一个标准,你会发现,即便经过了二三十年的发展,真正能达到百万出货量的机器人品类其实非常少。至于其他更开放的场景,今天还处于更早期的阶段,尚未形成规模化的商业化和产品化进展。

泓君:你怎么看通用机器人的投资?

陈哲:市场对通用机器人这个方向非常关注,许多大公司,包括NVIDIA 在内,都在这一领域进行了大量投入。然而,我必须承认,我认为今天的通用机器人还处在一个非常早期的阶段。如果与PC时代或移动互联网时代相比,我认为它可能相当于1980年的PC或2005年的智能手机,核心的技术要素正在快速出现,长期和早期的探索非常活跃。但真正形成了清晰的商业路线和产品路线的还非常少。

因此,我们的观点是,我们会积极关注这个方向,但何时进行大规模的积极投资,可能要看时间和产品的方向以及团队本身。根据我们多年投资机器人的经验,识别技术的变量、成熟度和面向市场的能力非常关键。如果我们错判了技术的成熟程度,可能意味着公司成立10年后,我们也无法交付一个真正可以售卖、可以商业化的产品。

从产品和市场的角度来看,一定要找到市场和产品的契合度,也就是我们常说的产品市场契合度(PMF)。这对通用机器人产品来说也是非常困难的,因为今天我们可能可以不计成本地做出一个非常酷炫的通用机器人Demo,但一个不计成本的设备是无法卖到家庭或商业场景的。所以,对PMF和产品定义的要求也非常高。

最关键的,从长远来看,还是团队。因为做通用机器人的创业不像做软件或AI的创业,它既需要有非常好的软件和算法能力,也需要很好的硬件能力,最终可能还需要非常强的商业和市场化能力。所以,创业的门槛在我们看来是非常高的,完全不低于新能源电动车创业的难度。因此,我们对这方面的标准会非常高,也会非常期待有在多个方面都能够满足的团队,在通用机器人这个领域进行创业和尝试。

泓君:作为NVIDIA 中国区机器人业务的负责人,Lily 你如何看待中国机器人行业目前在中国市场的落地情况?

Lily:我认为中国在机器人领域在全球范围内都做得非常好。得益于智能制造的强大生产力背景,从NVIDIA的角度来看,中国地区的机器人行业发展非常出色。目前来看,生活服务类、智能制造,以及汽车和仓储物流等领域都相当不错。生活服务类可以理解为包括扫地机器人、割草机器人等。虽然中国可能没有广泛的割草机器人需求,但中国是割草机器人非常大的OEM出海国,所以在这方面也做得非常好。此外,生活服务类还包括配送服务,比如无人机配送、无人小车配送,特别是生鲜类商品,以及一些直接送到家的服务场景。在工业生产制造领域,操作类和搬运类的机器人应用也相当广泛。

泓君:那从投资的角度来说,Peter 你觉得它是一个可以大规模投资的领域吗?

陈哲:客观来看,尽管机器人行业非常活跃,但其真正的规模和量级并不大。正如我所说,真正出货量超过100万台的机器人品类非常少。如果整个产业只能产出例如10万台机器人,那么其对应的产值实际上是相对较小的。以送餐机器人为例,虽然它是一个比较活跃的品类,但全球每年的出货量可能不到5万台,甚至不到10万台。将这个数量乘以其单价,整个产业的产值其实是比较小的。

在这样的一个相对较小的产业中,要找到特别大的投资机会实际上是很不容易的。这也正是为什么大家对通用机器人、人形机器人抱有如此高的期待。人们希望机器人的通用化能够极大地拓展机器人的应用场景和市场规模。虽然目前这件事情还没有发生,但大家对这个前景持续保持着投入的意愿和兴趣。

泓君:我理解今年机器人行业重新变得热门,部分原因是大家看到了大模型对机器人行业带来的一些提升。正如你刚才提到的,现在机器人行业的发展阶段可能类似于1980年代的互联网或2005年的移动互联网。那么,现在是否是开始关注并投资通用机器人的时机呢?

陈哲:我们会积极关注国内外众多公司,实际上我们已经进行了接触和研究。但必须承认的是,我们认为机器人行业目前还处于非常早期的阶段。如果我们的真正目标是实现通用机器人,那么它所面临的挑战、所需的时间和成本投入可能是巨大的,其难度甚至可能超过特斯拉在2005年开发电动车时所面临的挑战。要建设整个生态系统,目前还处于非常早期的阶段,因此对于投资通用机器人,我会保持一个相对谨慎乐观的态度。

在今年3月份的NVIDIA GTC会议上,有一场分享邀请了波士顿动力的创始人Marc Raibert,讨论通用机器人和人形机器人的话题。他提出了一个有趣的观点:以人形机器人为代表的通用机器人要实现规模商业化,至少需要10年以上的时间。他认为这个周期将超过大多数风险投资基金的存续期。换句话说,他不建议风险投资真正参与到这类投资中,因为所需的时间周期远超大家的想象。

泓君:你的判断跟他是一致的吗?

陈哲:这代表了真正在人形机器人领域从业30年的科学家和研究人员的保守乐观态度。尽管目前我们看到了该领域许多变化和变量,机器人能够抓取苹果或其他物品,但这些技术离真正的商业化落地还有相当远的距离。

以抓取技术为例,我们曾投资过一些抓取领域的公司,也非常关注这一领域的发展。在实验室中,将一个苹果在干净环境中抓起并放下,哪怕成功率达到99%,与真正的行业落地要求仍相差甚远。在工厂环境中,对准确率的要求不是99%,而是99.99%,即要求抓取一万次只允许失败一次。

泓君:我们去年在聊机器人跟大模型的那期播客里面有提到,如果我们让一个机械手臂能够在任何空间、任何光线下都能够非常准确地握住一只杯子,那它可能就是一个诺贝尔奖级的成果了。

陈哲:是的,这是机器人学的皇冠级问题。但是对于一个人来说,哪怕一个接受过一两个小时训练的工人来说,他在产线上基本上可以做到百分百的不失误、或者不失效,而且是非常灵巧、非常快速的。所以这一点就意味着要把机器人落地到这个场景里面,确实需要非常仔细思考它的产品路径。做一个很酷炫的demo,离真正的商业化是很远的。那回到我们做投资,我们要投的是一个商业上成功的公司,我们投的不是一个只擅长做demo和持续募资的公司。所以这对我们的投资和创业提出了非常高的要求。

泓君你会怎么去衡量一家机器人公司的好坏,以及它是否值得投资?

陈哲:投资是一个多维度的考虑。作为一家公司,它必须在正确的时间选择正确的切入点,并由一个合适的团队来执行。例如,在2014年和2015年,中国出现了一些扫地机器人公司;在2021年和2022年,中国出现了一些割草机器人创业公司;而在2016年和2017年,中国出现了一批仓储机器人公司。这些公司的出现时机和市场切入点与当时技术与需求的成熟度密切相关。

作为投资人,对于创业者来说,我们需要判断在当前这个时间点上,哪些技术哪些能力已经成熟到可以进行商业化创业的阶段,以及这个团队是否真正找到了合适的人。我们不仅要考虑他们可能有非常好的背景、逻辑或故事,还要看他们是否能真正交付场景或产品。这是一个相当综合的事情,也是我们每天在不断探索和学习的过程。

我认为中国的公司在机器人创业浪潮中拥有巨大的机会。在过去20年或10年中成功的机器人公司,绝大部分来自中国,这得益于我们在供应链、研发和快速迭代落地场景方面的优势。而如果是一个在美国做机器人创业的团队,我会考虑这个团队是否适合从事对精度和性能要求非常高,且对成本不敏感的领域,这可能是美国公司在过去10到15年机器人创业成功的要素。这些要素可能与中国公司成功的要素正好相反。

因此,美国公司更容易成功的领域,中国公司去做的可能性和成功概率可能会较低。相反,在扫地机器人、割草机器人、仓储机器人、服务机器人、配送机器人等中国公司具有明显优势的领域,我认为中国公司有更大的成功机会。

泓君:总体上来说机器人赛道是值得期待的,但我们现在还在一个非常早期的阶段。

陈哲:对,在AI的发展历史上,我们经历了三次低谷。这是因为短期内人们对技术的可能性和突破抱有很高的期望,但当技术无法满足这些期望时,人们会感到失望。我担心机器人行业在未来两三年内也可能面临类似的情况,尤其是现在有大量资本和创业者涌入人形机器人和通用机器人这样长期且困难的领域。

如果这些公司在接下来的两三年或三四年内没有达到预期的进展或效果,市场可能会进入一个低谷或失望期。面对这样的情况,我们应该如何从这种环境中恢复并重新站起来,真正推动技术朝着可落地、可商业化的方向发展,这可能是我未来几年会非常关注的问题。

泓君:这个过程是不是类似无人驾驶的发展的历程?

陈哲:如果我们回到2015年,告诉大家到了2024年,我们仍然无法实现商业化、盈利性的Robotaxi(自动驾驶出租车)运营,我认为很多人可能不会选择进入这个行业,或者不会那么积极地在这个领域进行投资。技术发展往往需要一个漫长的过程,且不会一帆风顺,尤其是在涉及物理环境和自然环境交互的领域。如果要解决人形机器人或通用机器人的问题,它们面临的难度远远大于自动驾驶技术的商业化和落地难度。

泓君:有一点好处是,当技术泡沫出现时,会吸引许多顶级聪明人进入这个行业。虽然这个行业未必能达到大家最初设想的理想状态,但在技术发展的过程中,它可能会带来许多新的商业化场景和应用形态,这些可能是之前人们没有预料到的。这是一个非常有意思的现象。

【相关补充信息】

具身智能:Embodied Artificial Intelligence,是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。1950年,图灵在其为人工智能奠基、提出图灵测试的经典论文《Computing Machinery and Intelligence》的结尾展望了人工智能可能的两条发展道路:一条路是聚焦抽象计算(比如下棋)所需的智能,另一条路则是为机器配备最好的传感器、使其可以与人类交流、像婴儿一样地进行学习。这两条道路便逐渐演变成了非具身和具身智能。

PaLM-E:PaLM-E是一个由谷歌和柏林工业大学在2023年共同提出的具身多模态语言模型(Embodied Multimodal Language Model)。这个模型能够将现实世界的连续传感器模式直接纳入到已经预训练好的大型语言模型中,从而在单词和感知(words and percepts)之间建立联系,其核心设计理念是将连续的、具身的观察(如图像、状态估计或其他传感器模式)注入到预先训练好的LLM的语言嵌入空间中。

PaLM-SayCan:谷歌研究团队于2022年提出的一种机器人学习算法,结合了大型语言模型与预训练的机器人行为,机器人充当语言模型的“手和眼睛”,语言模型则提供关于任务的高级语义知识。这种方法使得机器人能够根据自然语言指令执行复杂的物理任务,同时确保这些任务在特定的真实世界环境中是可行的。

Google RT-1/RT-2:由Google的机器人研究团队开发的先进机器人学习模型。RT-1(Robotics Transformer 1)是一种视觉语言行动(VLA)模型,RT-2是其进化版本,目标是训练一个端到端的模型,该模型可以直接从机器人的观测到动作,同时利用大规模预训练视觉语言模型的优势。RT-2通过对互联网级别的视觉语言任务进行预训练,然后在真实世界的机器人任务上进行微调,从而获得更好的泛化能力和涌现能力。

互动送礼

你对具身智能和通用机器人有哪些观点,欢迎在评论区分享你看完内容之后的心得,或者与此相关的认知。我们会选取2位精选留言,送出五源准备的礼物一份:)

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片