2021年,马斯克杀死了波士顿动力

2021年,马斯克杀死了波士顿动力
2024年05月08日 18:03 创业邦

来源:创业邦

来源丨远川科技评论(ID:kechuangych)

作者丨叶子凌

编辑 | 李墨天

2021年的特斯拉AI Day,特斯拉PPT首发了人形机器人Tesla Bot的概念机设计方案。按照马斯克画的大饼,Tesla Bot可以完全代替人类“从事重复性/无聊的工作”。

也许是担心在场观众干看PPT无聊,马斯克请来了一位身着紧身衣的皮套人,模仿Tesla Bot尬舞了一段。

AI Day结束,科技媒体The Verge表示,马斯克的Tesla Bot就是个笑话[1]。文章还援引中央兰开夏大学机器人工程教授Carl Berry的评价:说它是马粪都算抬举它了(horse shit sounds generous, frankly)。

Carl Berry还专门搬出机器人领域的网红公司波士顿动力,认为后者正在踏踏实实的做事,而特斯拉在加深公众对机器人不切实际的幻想。

今年4月,特斯拉的皮套人尬舞再度被拉出来鞭尸。在波士顿动力展示新款机器人的视频中,机器人以一种灵活到有些诡异的方式从地上站起来。

波士顿动力也在推特上阴阳怪气了一句:“我们保证这不是一个穿着紧身衣的人。”

事情的起因是,波士顿动力宣布11岁“高龄”的人形机器人Atlas正式退休——Atlas算得上是初代机器人网红,它被波士顿动力员工一棍子撂倒,接着踉踉跄跄爬起来的视频,一度引发了“停止霸凌机器人”的后现代哲学思考。

结果Atlas领退休金的第一天,“焕新版”Atlas正式出道。最大的变化是,波士顿动力抛弃了原有的液压结构,改为电机驱动。

目前,“焕新版”Atlas的宣传片已经在YouTube上收获了500多万播放量。

相比Atlas熟悉的后空翻大劈叉,相较之下,去年年底的第二代Tesla Bot才刚学会缓慢行走和90度深蹲。

加上马斯克近几年大饼画的太多,也不难理解The Verge会提出“机器人为什么要像人”的质疑。

然而,可能恰恰是2021年PPT上的Tesla Bot和滑稽的皮套人尬舞,决定了波士顿动力的命运。

谷歌发现了什么?

相比荒诞开场的Tesla Bot,波士顿动力这家公司是机器人领域根正苗红的祖师爷。

波士顿动力成立于1992年,前身是麻省理工学院的腿部实验室,长期致力于有腿机器人的研究。

2012年,DARPA(美国国防高级研究计划局)为了推动机器人研究,资助了一场机器人挑战赛,波士顿动力由此进入美国军方的视野。

DARPA是五角大楼旗下的研究机构,和NASA一起诞生于美苏争霸的白热化时期,目的是借助国家意志确保美国在高科技领域的领先。只不过NASA负责地球以外,DARPA负责地球以内。过去几十年间,DARPA直接或间接的推动了GPS、互联网等技术的诞生。

2012年,正值DARPA在机器人、自动驾驶等领域大力投资,为了降低参赛门槛,DARPA希望能有一款标准化的人形机器人,供参赛团队编程。

在这之前,波士顿动力已经为DARPA开发了多款产品,比如外型神似野猪的LS3,能够穿梭于各种极端战场环境,快速运送物资。

波士顿动力LS3波士顿动力LS3

2013年7月,在DARPA的资助下,波士顿动力打造出了身高1.88米,重达150千克的初代Atlas。这个新闻很快传到了谷歌的耳朵里,波士顿动力的命运随之改变。

当时,谷歌正在秘密筹备一个代号为“Replicant(复制人)”的机器人项目,由“安卓之父”安迪·鲁宾亲自带队。按照鲁宾的设想,谷歌将打造一个编程平台,从而推动机器人普及,最终在机器人身上复刻安卓系统的成功[3]

为了这个庞大计划,谷歌疯狂扫货,一口气收购了九家机器人初创公司,Atlas问世不到半年,波士顿动力就被谷歌收入囊中。此后,Atlas的迭代速度也坐上了火箭。

2016年,波士顿动力毫无征兆的发布了一则新款Atlas的演示视频,视频中Atlas熟练的行走跳跃,尤其是被推倒在地后,仍能自主起身继续完成工作,整个过程栩栩如生,带给公众的震撼不亚于2022年底ChatGPT的问世。

目前,这条视频的Youtube播放量已经积累到了4059万。2017年,Atlas再接再厉,用一个精彩的后空翻再度把波士顿动力送上全球热搜。

Atlas表演后空翻,2017年Atlas表演后空翻,2017年

然而,就在波士顿动力风头正盛的2017年,投资了五年之久的谷歌却将其甩卖。按照彭博的说法,谷歌管理层的核心分歧在于商业化。

波士顿动力希望埋头研究,但谷歌希望尽快打造能商业化的产品:“我们不可能用30%的资源去投入一个需要10年以上的项目[4]。”

在彭博的报道中,丰田和亚马逊都是潜在的买家,但波士顿动力最终被卖给了软银,2020年又被卖给了韩国现代。

谷歌内部,安迪·鲁宾因性丑闻被扫地出门,Replicant项目也草草收场,划上一个满是遗憾的句号。

一家明星公司在当打之年被潦草脱手,谷歌内部真实的决策过程难以知晓。但在这个过程中起到决定性作用的,很可能是2017年发生在谷歌内部的另一件事。

我来组成头部

2017年6月,谷歌的8位AI科学家联名发表了一篇名为《Attention Is All You Need》的论文。这是继2012年AlexNet勇夺ImageNet挑战赛冠军之后,人工智能发展史上的又一个里程碑事件。

谷歌的科学家在论文里提出了一种“注意力机制”,并基于此开发一个名叫Transformer(变形金刚)的深度学习模型,解决了传统RNN模型的一系列问题。

2020年,谷歌又提出了Vision Transformer ( ViT )概念,赋予了Transformer处理图像的能力。

随着Transformer一口气解决了众多缺陷,它渐渐发展成了AGI领域的唯一解。

2012年的AlexNet让AI有了“感知”的能力,而Transformer和之后的大模型让AI有了“生成”的能力。换句话说,2012年的AI可以识别出各种各样的猫,2017年之后的AI已经可以自己生成猫的图片了。

因此,Transformer的推出直接开启了今天的大模型时代,2018年6月,OpenAI推出了基于Transformer模型的GPT-1,GPT里的“T”,就是Transformer的首字母。此后,OpenAI沿着这条路线持续迭代,并基于GPT模型开发了ChatGPT。

在大模型百花齐放的同时,Transformer也为人形机器人的进步打开了一扇窗户。

传统机器人大多基于特定的规划执行特定的操作,比如运输、分拣,不具备感知和决策能力。人形机器人不仅能与物理世界交互,还有感知和理解能力。

举一个不太恰当但好理解的例子:送餐机器人执行“把外卖送到1203号房”这个任务时,并不理解什么是“外卖”和“1203号房”,只是根据软件系统既定的指令和路线规划完成任务。

但人形机器人可以借由智能化,理解物理世界各种物体、语言和文字的含义,并自主规划和决策。也就是说,机器人可以不依赖预先的编程,就能完成诸如“关掉最上层抽屉”等较为模糊的指令。

波士顿动力的问题在于,无论Atlas的机械与动力结构多么优秀,都无法解决“穷举法”的问题。

Atlas的软件原理是通过摄像头与传感器输入外界环境数据,再根据提前创建的行为库,执行对应的动作。在其官方的文档里,波士顿动力坦诚了这么做的弊端:

“如果盒子向一侧移动了0.5 米,那么Atlas会找到并完成跳跃;如果盒子移动得太远,那么系统将停止[5]。”

由于Atlas的所有动作都依赖提前设计的模版,那么真实环境的一点点变化,都可能让机器人无所适从。这也是为什么传统机器人只被用于环境、路线和职能极度固定的工厂、酒店送餐等场景。

而Transformer带来的思路是,只要让机器学习足够多的数据,就能拥有类人的智能,可以脱离预设的规划进行自主决策。

去年7月《纽约时报》探班谷歌实验室, 完整记录了基于RT-2模型的机器人智能闪现的瞬间:

桌子上放着一堆塑料玩具,工程师让单臂机器人“捡起灭绝的动物”,机器人拿起了恐龙。

这意味着机器人不仅能识别三种动物,也能理解“灭绝的动物”的含义,还可以完成具体的操作。

Google RT-2Google RT-2

Transformer的出现彻底改变了机器人的技术路径,在感知-决策-执行的完整链条中,核心能力不再是驱动机器人后空翻大劈叉的机械结构,而是组成机器人大脑的软件算法。

人工智能的进步在各行各业上演着软件对硬件的夺权,机器人只是其中之一。

另一个正在由软件定义的行业是自动驾驶,这也是为什么马斯克会说:当你能解决自动驾驶,你就能解决现实世界中的人工智能。

特斯拉的三张牌

特斯拉在AI世界的出场,常常呈现某种荒诞不经的色彩。

2022年特斯拉备受期待的Tesla Bot第一次“真人”亮相,居然要依靠三名壮汉搀扶。两个月后ChatGPT横空出世,Tesla Bot成了一块无人问津的背景板。

然而,特斯拉在机器人领域的积累,可能比任何一家公司都要深厚。

自动驾驶本质上是机器人的一个“前置产业”,两者的核心都是基于人工智能,实现感知-决策-执行的完整链条。

这就意味着无论是软件层面的算法,还是硬件层面的视觉传感器、FSD芯片等零部件,理论上都可以用于人形机器人。

特斯拉也的确是这么做的:Tesla Bot共配置有3颗摄像头,左右眼各一个,外加一颗鱼眼广角。芯片是和特斯拉电动车一模一样的FSD自动驾驶芯片。软件上,Tesla Bot也承袭了自动驾驶的技术方案。

2023年特斯拉股东大会,马斯克也确认了这一点:特斯拉已经打通了自动驾驶芯片FSD和机器人的底层模块,实现了一定程度的算法复用。

任何人工智能的发展都需要算法、算力、数据三驾马车来拉动,算法决定了计算机用什么方式识别事物;但算法又需要足够大的算力来驱动;同时,算法的提升又需要大规模高质量的数据;三者相辅相成,缺一不可。

算法和算力层面,特斯拉已经借助电动车业务,完成了从云端(D1)到终端(FSD),核心软硬件的自研。

数据层面,2022年的AI Day上,特斯拉宣称已经存储的有价值训练数据集有23.2万帧,验证数据集0.38万帧。上百万车主正在源源不断的为算法训练贡献着数据。

马斯克本人在AI领域的涉足也常被忽略,他是OpenAI的创始人之一,也是DeepMind的早期投资人。他参与的人工智能公司还有脑机芯片Neuralink、聊天机器人Grok。特斯拉每天接受并处理的视频画面超过1600亿帧,这很可能是商业公司能拥有的最大的真实世界数据集。

波士顿动力很可能意识到了这个问题,但“焕新版”Atlas最大的改变,是从液压改为全电动,最大的好处可能是降低成本。

在一次采访中,创始人Marc Raibert曾表示Atlas在一定程度上激励了马斯克制造Tesla Bot的想法。但在人工智能残酷的竞争中,波士顿动力已经落后太多。

波士顿动力的问题在于,他们用了20年的时间试图教会机器人如何“运动”,但实际上,机器人应该先学会“思考”。

或许在不久的将来,判断机器人的智能化程度,可能不是看它会不会后空翻大劈叉,而是能不能从九张图片中选出包含红绿灯或摩托车的图片,或者滑动滑块使图片位于正确的角度。

参考资料参考资料

[1] Don’t overthink it: Elon Musk’s Tesla Bot is a joke,The Verge

[2] Modest Debut of Atlas May Foreshadow Age of ‘Robo Sapiens’,The NewYorker Times

[3] Google’s Andy Rubin Pursues ‘Replicant’ Robots,The Information

[4] Google Puts Boston Dynamics Up for Sale in Robotics Retreat,bloomberg

[5] Flipping the Script with Atlas,Boston Dynamics

[6] Elon Musk was likely inspired by Boston Dynamics' humanoid robot, its founder says,Businessinsider

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片