对话任少卿：世界模型是自动驾驶与机器人的新范式_新浪财经

和任少卿的对话，是从最基本的一个智能驾驶使用场景开始的——

在北上广城市快速路的限时段公交车道，智能驾驶系统如何能像人类一样，限制的时间段避开，非限制时段高效利用？

在过去，AI系统会严格按照人类写好的规则驾驶。但现在，端到端自动驾驶模型的范式之下，手写规则的方法开始被剔除，意味着AI系统需要自己去学习“限时公交车道”的特殊路况和场景，这需要时间，也可能短期内无法直接满足需求。

所以是不是智能汽车业内业外，过于迷信“端到端”了？

自动驾驶作为一个综合工程，为什么要端到端？

端到端又为何会出现在此时此刻？其本质是什么？

对智能汽车研发和车圈变革又会带来怎样的影响？

上述问题，没有人比任少卿更有发言权了。他既是世界级AI科学家，深度学习经典成果ResNet作者之一，近十年来也躬身产业一线，见证和实践自动驾驶技术从研发到上车，当前是蔚来智能驾驶副总裁、蔚来自动驾驶研发的负责人。

任少卿认为端到端是一种必然，类似造车会走向一体化的必然，有技术难度但不存在谁有独家秘籍，甚至“被强调太多了”……在他分享的四大关键技术要素中，模型只是第一点——数据、优化机制和功能体验，四位一体，缺一不可。

在他的视角里，AI也好，自动驾驶也好，这几年有变化，但本质没有变化。于是对于很多业内热议的具体问题，他都有着从本质出发的回答。

以下是对话实录：

量子位：端到端怎么识别公交车道，实现按时段规避和利用？

任少卿：方法肯定很多，但如果要特别精确地识别，可能还要学习怎么识别文字。

量子位：现在还不行？

任少卿：现在更多的是以历史的经验去看，历史的经验里可能噪声比较多。

什么叫噪声呢？现在的系统其实一部分是靠历史的经验，一部分是实际感知的结果。比如说旁边如果有个车进到公交车道了，那系统可能考虑是不是也可以开进去；那如果旁边的没有车走进公交车道，那系统就也不会进去。那其实按交通规则是不应该开进公交车道的，那这就是噪声。

我觉得这确实是一个核心的点，怎么去精准地识别，这个是需要去解决的。

量子位：这两年大家都在聊端到端，很多玩家All In进去。

假设没那么原教旨主义，就写一条规则，告诉系统什么时间能走公交车道，从而解决这个问题不是也挺好吗？为什么一定要把手写的规则都剔除掉？

任少卿：举个例子，比如说不同城市，北京（公交车道）可能相对来说还规则一些。大部分都是早上7点到 9 点，晚上5-7点在高峰期（不能走）。

再比如上海，上海延安路上是专门有一条给71路公交车行驶的车道的，在任何时间非71路是都不可以行驶的。而且这条车道还有专属的交通信号灯，可能信号灯长得都和普通信号灯不一样。

所以不同的城市对于“公交车道”是有各种各样的规则和场景的，而且如果今天这个规则变化了，那怎么弄？所以让工程师针对每一个场景去写一条规则得去搞，这个显然很难搞定。

其实这种案例非常非常多。那为什么原来大家都没考虑走端到端呢？这个和功能和场景都有关系。

比如三五年前，大家都在高速NOA的时候，场景比较简单。在高速上大部分的场景，就看前面三台车：

本车前面那台车，左边车道一台车，右边车道一台车，然后三辆车一起建模，写个规则。虽然也得写好几万行的代码，但是它毕竟场景简单。

那现在到了城区道路的领航辅助，还有我们NIOIN展示的、大家都在说的主动安全功能，那面对的是要处理各种各样的复杂场景，如果一个一个规则去写，这个显然非常难。从根本上来说，第一个是效率的问题，第二个是效果的问题。

我觉得更好更拟人地去应对全面的、复杂的场景，是自动驾驶要搞端到端的核心原因。

如果我们跳出自动驾驶的领域来看这个事儿，走向端到端技术还有一个原因，就是大家要做更统一的东西。

其实只有自动驾驶领域的人才会说端到端和非端到端，别的AI应用领域好像大家都不怎么说。比如做语言模型的、做机器人的，大家基本听不到说“今天我端到端了”这样的描述。

自动驾驶的历史比较长，在很多年前算法模型的能力没有这么强，大家更多把这件事情变成一个流水线。因为自动驾驶用自回归模型用得比较早，早期开发比较初期，所以自动驾驶就有非端到端的架构。到了今天大家觉得模型性能提升了，就把它给整合起来。

就跟造车一样，比如说压铸件，之前工艺没现在先进，就分成好多小块，先造出来，然后再焊上。那现在有了一体压铸的机器和技术，而且很成熟了，从时间效率上就高了非常多。

所以说回到自动驾驶，端到端本质是用一个更统一的方式去提升计划效率，包括时间的效率，包括人的效率。

再进一步说的话，从AI的发展来看，其实深度学习也是这个逻辑。最近10到15 年，所有AI 算法的发展，包括应用，本质上就是两件事：第一件事情是产生更好的效果，第二件事情是产生更好的泛化性。

第一件事情比较容易理解。原来一个任务，可能AI去执行效果差很多，比如说大家现在用得最多的是人脸识别，特别是通用的、对陌生人脸的识别，一开始AI没有人做得好，后来跟人差不多，现在绝对比人识别要好。

AI一步一步缩小和人的差距，然后做得比人更好，这是性能提升，是AI发展的第一个方向。

第二个发展方向，就是通用性。

比如说一个图像识别的算法，和物体检测的算法，分别用来判断一张图是什么类别和判断这张图里面有什么物体，开始都是不同的算法、不同的框架。那后来这俩图像和物体检测就可以融合了，再后来所有图像类的任务基本上都融合了，可能后续说图像类的任务和语音类的任务也快融合了。

实际上是希望最后变成所有智能体的任务，自动驾驶开车也好，机器人走路也好，机器狗爬山也好，所有任务都是用同样一套框架去做，这也是端到端之后要做的事情。

量子位：所以Transformer是一个很重要的变量，带来了效果上或者是算法能力上的提升，还带来了什么？

任少卿：Transformer在其中算是一个工具。

但是我想说AI的发展，实际上大家都在追求这两件事情，今天如果没有Transformer，可能也会有其他的工具，但大家追求的这个方向实际上是没有变的，就是想追求更好的效果和更通用的能力。回到我们刚才说的这个事情上，自动驾驶的端到端实际上是某种程度上在追求两件事儿。

另外的就是什么样的框架，除了自动驾驶外，相关的所有的智能体或者类机器人的方向，都能用同样的方式去解决。

这个是我觉得一定会有人去做，也是大家想做的事情。

量子位：现在用户都会去关注，车企的智驾是不是端到端的系统。多少有点诡异，因为端到端这个的事情它更大的意义是在于研发，在于厂商本身，对于用户其实没有那么大的意义。我不在乎我的这个车是不是端到端的系统，我觉得他能处理很多或体验很好就行。

任少卿：我觉得这是一件挺有意思的事。

用户愿意去关注这些工作还挺好的。比如说好多使用语言模型的用户，甚至开始关心这个模型怎么训练了。所以大家关心关心这事也挺好。尤其是对于早期使用的一些用户来说，讨论的这些话题对他来说是有意思的，他才参与这个过程。

再往后大家也会随着整个行业的技术迭代去讨论其他更多的话题，当然这些技术迭代也会带来一些新的体验和产品形态。

量子位：端到端会给你们研发的流程带来什么样改变？

任少卿：这其实是个模型化的事，大家现在可能过多地在关注研发流程、架构调整等等这些事情。但是模型化对于自动驾驶研发而言，绝对不是只是这半年的事。

自动驾驶最早可能2013年就开始用深度学习，然后逐渐地在增多比例。只是说可能大家最近谈起的比较多，所以就多说一说了。

量子位：自动驾驶会不会犯类似“分不清9.11和9.9哪个大”的常识性错误？

任少卿：有的，其实是一样的，语言模型里面叫幻觉，自动驾驶就是大家一直在说的 Corner case，或者说误检，漏检。

比如说，语言模型突然输出了一句莫名其妙的话，那在自动驾驶的感知模型里就是突然间有一帧没了，或突然间蹦出来一个实际上不存在的东西，其实都是类似的。

那自动驾驶开始解决这个问题的时间，相对来说是比较早的。更多的就是通过时序的切割机制，通过校验机制等去解决。

实际上像语言模型里面管控承诺也是这样， COT（思维链）的一方面的逻辑实际上就是让系统自我校验：通过一个更复杂的输出表达，然后自我去校验。

现在也有像MOE ，或者还有其他的一些方法，比如说实际应用端的和后端的校验，都是同样的逻辑，所以整体来说就是模型训练，性能对齐，输出一个跟人类偏好差不多东西。

还有就是有错的问题，通过多次的校验，用神经网络，非神经网络的方法，再加上一些人力规则的方法去校验这个事情，把错的东西挑出来变成正确的。

量子位：进入系统的视频数据，一方面是标注的真实数据，另外一方面就是世界模型的生成数据，有点像LLM中合成数据。

任少卿：如果要定义一个任务的话，最终要回答一个问题，这个问题就是你定义的任务有多通用。从自回归的角度来说，定义的任务越通用，学术的角度上看意义越大，从应用的角度看也是一样。

10 年前大家说计算机视觉领域的三大基础任务，图像分类，检测和分割。去理解一个图像，能对它进行分类，进行提框，找出里面的物体进行分割，这确实是根本任务。

但是到了今天，这个基础任务的定义不够了。我们需要一些更根本的问题。

语言问题定义的根本问题，是预测下一个token，下一个词。

实际上对视觉也是一样。如果能定义一个更基础、更根本的任务去解决问题，那在这上面找应用，它覆盖的范围就更广更通用。

量子位：用视频生成视频，本质上也是对问题的穷举？

任少卿：是的，作为一个基础任务，最根本、最本质就是要定义这个东西。所以现在的定义就是，视频去生成视频这件事情更本质，因为它能包含所有的其他可能性。

输出视频是一个分类，把中间的物体抠出来，那它就是可以做物体检测的任务。输出的是一个分割的结果，就是可以做分割的任务。输出的是一个三维重建，换个角度的结果，就可以做三维重建的任务。所以视频生成视频这件事情，实际上从问题的定义上来说是一个更根本的问题。

而且我们认为，重建是对于时空理解和对原始数据全面理解最深刻的表现形式。

因为基本上原来的信息量，都需要重构出来，才能去做中间的事情。

量子位：现在的世界模型和更早前的虚拟仿真，本质不同是什么？

任少卿：虚拟仿真我觉得完全是一个另外的逻辑。这实际上是两个方向，一个方向，我们说计算机视觉，一个方向是计算机图形学。

其实是分别干了两件事，一个事情是理解世界，一个事情是再造世界，就是虚构一个视觉。但是最近两年两个方向也越来越近了。

总体上来说，完全地理解这个世界是世界模型要干的事。

那现在也有一些用原始视频的方式来仿真，但它本质上不是要完全理解这个事情。不是说给它一个输入，就要把输入完全理解，而是说要重构一个东西出来。但重构的东西不见得是这个世界的全部。所以仿真的问题是仿真不包含这个世界的全部信息。

比如说最早的仿真，拿游戏来举例，游戏其实某种情况下就是仿真。最早的仿真就是像大家打红白机游戏，有（像素化）粗的信息，但是很多精细的东西是没有的。所以仿真一直存在的问题，就是它不断地逼近真实世界，但它离真实世界还有距离。

量子位：蔚来讲世界模型的时候，用了类人脑的方式，将其划分成两个部分，这是为了方便听众理解，还是系统本身就是划分成了两块？

任少卿：分这么开是为了方便大家理解。实际上做的时候是耦合在一起做的，不是完全分开。

实际上我们讲的时候，第一部分关于空间重构，其实也是重构成视频。那重构成视频，某种程度上里面也包含时间的信息，只是说我们给大家讲例子它不会那么长。

那讲第二部分时间认知的时候，我们更强调时间认知，想象推演的能力。那推演出来的结果时间长，变化多，但是实际上它是和第一部分空间重构的能力耦合在一起的。

量子位：对生成式AI关注多吗？

任少卿：我觉得挺好，最近实际上变化很大呀。就是为什么要去说世界模型这件事，为什么会往这个方向走。

因为就是回到刚才那个话题，端到端、非端到端只是智能驾驶领域的一个大家讨论的事。从技术角度来说，我们会想实际上从更大的范围之内，那自动驾驶和机器人与大语言模型的融合会是什么样的方式？

量子位：世界模型，就是你们给出的一个方式。

任少卿：对，它是一个更贴近通用的一个方式，自动驾驶能用，之后机器人也能用。那语言模型，后面的原生规模也会是类似的框架。

当然其实还有更激进的方式，就融合所有域，但是这个咱们就后面再说啦。

量子位：规模很宏大，会遇到工程问题吗？

任少卿：会遇到很多工程问题，所以现在给大家讲的世界模型，它会更贴近于下一个阶段的机器人、自动驾驶，以及语言模型的基本框架。

量子位：什么是世界模型的多元自回归生成结构？

任少卿：其实这里面的这三个东西，和大家实际上都在研发的语言模型，机器人框架，很类似。

里边有三个关键词，从右往左说，第一个是生成，这个生成的方式，它有很多的优势，不用标数据了，学习效率更高，所以语言模型早就已经是生成式的了。

那自回归本质上可以解决长时序的问题，所以语言模型long contents也是类似的方式。自动驾驶和机器人要解决长时序的问题，也得用这种方式。

多元是什么呢？多元就是这个multivariable input 和output(多模态输入与输出)，本质上是要解决多数据源的问题，那之后自动驾驶想用互联网的数据，或者互联网想用更多领域的数据，其实都要用类似的这种方式。

我们是希望通过这些框架，去打通跨领域的事。

量子位：现在都在做城区NOA，但每一家最后呈现的体验不同，你觉得是什么因素决定的？

任少卿：可以认为大概四大因素吧：

第一是模型，第二是数据，第三是优化——模型总还是会出问题，出了问题之后怎么用其他的方式、基于优化的方式去做联动。

第四个是功能的多少，feature 有多少，实际上就是基于前面三块，但也并不是完全相关。

所以第一点来说，模型的角度实际上就是我们这次所说的核心。每家其实会有不一样，甚至说每家不一样的点还不少，这是模型的角度。

第二个就是数据的角度，数据多还是少、频率快还是慢。对于我们来说，蔚来的数据闭环，我觉得可能是全球最好。

第三，模型输出的结果也会有问题，那处理的方式，导致的效果更好还是更差？怎么能做到效果好，其实有两点，一个是指不要误杀模型输出的好的结果，一个是指如果没有误杀模型的结果，模型做得不好的时候相对来说更丝滑：肯定不要出现这个模型前半段这么开的，后半段就不是了，或者说后半段输出的轨迹不平缓了。

就比如说，如果突然有个障碍物出现，系统打方向盘，虽然也没撞墙、是做对了的，但是对用户来说肯定体感不好，明显有段落感，这种体验就不好。那怎么去做优化就是很重要的一件事。

第四个就是说基于以上，还能有什么新的功能，从用户体验的角度来说，能不能做得更好。这就包括用户使用情况的追踪，跟用户的交互等等。

总结来看，技术能不能做到在一个层级上，这个事情很重要。

某种程度上来说，模型根本上是为了提高效率。模型提升了上限，但是实际上它并不能保证它的下限一定在提高，它有可能下限在下降。

所以后面包括融合模型和优化方法，实际上就要保证下限能保持或者提得更高，同时又不降低效率。同时需要让用户用得好，需要让用户有更多可用、爱用的功能。

量子位：现在好多机器人创业公司，说要打通虚拟世界跟物理世界，和打通不同领域有什么不一样？

任少卿：那个是另外一个工程模型。

说打通不同领域，实际是在说打通不同应用。就比如说自动驾驶和机器人、大语言模型这些技术的融合，就他得彻底用同样一套框架去做。

其实大家很容易理解——实际上自动驾驶是一个特殊的“机器人”，是所有机器人应用里面最大的一个应用之一，也是目前价值最大的。其实大家发现说之前的自动驾驶，或者直到现在自动驾驶，为了做它的这个研发成本是非常非常高的。那大家现在都在深耕自动驾驶，因为它前期的商业场景是非常大的。

如果用目前自动驾驶的同一代技术栈去做机器人，可能没有任何一个机器人的应用在当下能撑得起来这个投入。

但是我们认为说长期再往后走，自动驾驶也是个泛机器人领域，所以那能不能用同样一套框架、用更高的可共享度，然后用更低的成本去做所有的机器人，就泛机器人能力这个事情，我们觉得一定是能做的。

但要找到相应的技术，本质上前面说的这些世界模型，我们觉得我们自己的框架也能去做机器人。

量子位：暗示蔚来也能做机器人？

任少卿：主要是我觉得从技术的维度上来说，这件事情它基本就是这个路径实现的。

那如果机器人探索出来它统一的框架，它一定能回来做自动驾驶。因为本身是很相似的，同时这些方式肯定都是要用大量的数据的。

那在自动驾驶上把这样的一套充分认知的框架，做出来的可能性更大，因为它的数据量更大了。

做机器人来说，我觉得还是要分三层，我们认为它实际上有三层的能力，第一层能力叫做概念认知，第二层叫时空认知，第三层叫做运动的，或者说叫交互。

第一层的概念认知实际上就是大于模型解读，第二层的时空认知就是刚才我们说的这些。第三层的运动能力从某种程度上看，就是怎么去控制轮子，怎么去控制腿，怎么去用某一只手，或者怎么去拿一个工具或者物品，拿起工具来了又要去把它用起来。但是通用来说我们说道的第二层的能力，就是这个时空认知的能力，是一个很通用的能力。

量子位：如何看待这几年整个产业的变化？

任少卿：其实我觉得在整个产业上，从技术的角度来说，自动驾驶前面几年技术都没什么特别大的变化，最近这半年一年倒是变化挺大。很多的变化本质也并不来自于自动驾驶领域，更多源于我们前面说的这些AI科技在其他领域上的发展。

量子位：可能最后还是会追求变成一个通用的模型，打造一个像人一样的这种智能体？

任少卿：是这样的，剩下的问题是怎么把它打造出来。AI 通用模型和机器人等类型的科技交叉越来越多，所以我觉得做智能驾驶也不能只关注智能驾驶。