到底什么是端到端，蔚来任少卿给我们做了一场通俗易懂的普及_

来源：虎嗅网

出品丨虎嗅汽车组

作者丨李铭扬

头图来源丨蔚来发布会（蔚来智能驾驶副总裁任少卿）

7月27号，蔚来举办了一场技术发布会，有芯片亮相，也有整车操作系统发布，有Nio Phone的正式上市，也有智能驾驶世界模型NWM的展示。发布会后的第二天，虎嗅汽车来到蔚来位于上海漕河泾的办公室，和蔚来智能驾驶副总裁任少卿聊了两个小时。

除了最近热门的端到端技术以外，任少卿从自动驾驶的本质出发，分享了很多源头上的思考。以下为虎嗅汽车与任少卿的对话：

端到端可以类比为“一体式压铸机”

虎嗅汽车：去年NIO IN发布会就展示了端到端技术，而今年发布了NWM世界模型，那这个模型具体是怎么搭建的？意义何在？

任少卿：我觉得解释这些问题之前，可能要先说一下，为什么会有端到端这件事。因为我是做智能驾驶行业的，就发现行业里所有人都在说端到端。但如果你换一个别的行业就会发现，没有人说这个事。比如说机器人行业，就没有人讲这个事对吧，因为机器人必然是端到端，端到端的本质就是我用一个模型去解决一个问题嘛。

那为什么自动驾驶有端到端和非端到端的问题呢？因为智能驾驶本身比AI开发得早，很多年前的模型还没有现在这么成熟，一个模型解决不了这么复杂的问题。举个例子：就和流水线造车一样，过去造一个车尾部的铸造件，因为没有那么大的一体压铸机，那就把它拆成一个个零件。先做一个零件A，然后再做零件B，最后再把A和B拼起来。智能驾驶也一样，过去如果没有办法把这个复杂的问题一次性解决，那我们就把它变成了流水线，变成了一个一个工序。但就像压铸机一样，你就要定义，A和B如何拼接起来？非端到端就是这个原理。

那为什么现在又要做端到端呢？其实跟压铸机也很像，现在有能力做成一体式的了。过去分成两个件，其实会产生一些问题，比如说中间有接口，其实从铸造的角度来说，你接口的强度就没有一体压铸的那么强，还会有额外的损耗。那从模型的角度是什么呢？你如果有接口，这个接口就要定义得相对更清晰。一体式压铸，不是只把零部件压上就结束了，还要定义接口有几个焊点。模型大概意思也是这样，我要定义两个部分之间有多少个“焊点”，这个过程中实际就会造成信息的损失，压铸的话就是造成强度的损失，模型上也会造成信息的损失。

虎嗅汽车：信息损失具体是什么？又会造成什么影响？

任少卿：什么叫信息的损失呢，举个例子，一个最简单的开车场景下，智能驾驶的工作逻辑是怎么样的呢？前方遇到一辆车。首先要有一个感知的模块，这个感知的模块要定义前面这辆车，那怎么描述它的位置、速度？最简单的方式大家都能理解，就是画个框，然后有距离、长宽高、速度。第二步再写一个规划的模块，比如说当前方车辆距离我只有10米时，如果速度比我低，那我就要减速制动了，大概是这个逻辑。

但实际研发时，一定比上述描述要复杂得多，当视线足够清晰也就是你能看清前方的时候，这件事情可能问题不大。但如果遇上下雨天气，实际上你也看不清楚前面的车到底距离有多远，可能是 5 米，也可能是 10 米，此时一定要定义模型给出个结果，那它怎么给呢？可能给个平均值或者给个中位数，也许是 7 米。如果实际距离是5米，但此时可能就离前车很近，很不安全。而如果实际距离是10米，那就造成跟车距离很长，影响体验。这里面，很多都是不确定性的信息。

位置的一阶量距离，位置的二阶量速度，位置的三阶量加速度，这些不确定因素还会叠加起来，高阶量因素从简单统计上来说，没有办法描述，所以就产生了信息流失。而非端到端的中间需要有人工的处理。就跟前面举例的铸造件一样，中间两个件可能要靠个机器人或靠个人把它焊起来，这个过程中就产生了额外的工序和人工消耗。放在制造业来说，倒还好，可能工人培训一段时间后，比较容易把产能提升上去。但是自动驾驶算法需要的算法工程师，本身很难规模化。

所以会有这么两个问题，就是非端到端，第一有信息损失，第二个要加人工处理的逻辑在里面，整体的开发效率就会降低。如果是AEB的问题，处理一些标准 case 还好。但如果是真实场景，就会有无穷无尽这种 case，人工根本处理不过来。

自动驾驶很多年前没有能力去做一个模型，所以做了这个流程的拆分，因为做了流程的拆分，所以引入刚才第一个信息损失的问题。第二个难点，就是解决人员去做针对 case 的开发，很难规模化，分工冲突就是问题。而到了最近这几年，模型的能力也变强了，那大家就想说，当时因为模型能力不够，所以有了这些历史的包袱，现在可以扔了。

比如现在很多其他科技领域的项目，上来就是一个端到端，因为能用一个模型去解决一个事情，没有什么比这个更 fancy 了。端到端和非端到端，本质的差异和逻辑，就是这样。

世界模型的本质：在四维时空里高效安全运动

虎嗅汽车：我们体验了最新版本的智能驾驶，升级之后跟车距离会调得非常长，会影响用户实际体验。蔚来基于一个怎样的考虑出发来这样设计，是由研发同事定义，还是产品同事定义的？

任少卿：每个版本都有微小的变化，但每个人的感觉其实差别会很大。比如说我们感觉可能就没什么特别大的变化，那有些用户就比较敏感一些。实际上现在也是数据驱动的去做迭代，数据驱动之后会有一些微改，基本逻辑就是传达这个数据。但我们也在不停地在加新的数据，每一个版本出来可能都会有些场景进行微调。

过去的智能驾驶，都是固定的逻辑，其实比较容易。前车是什么速度距离，我就保持多少速度和距离。无论什么场景，都是很机械的反应。

现在的做法其实是 motion plan，数据驱动，丢进去各种各样的场景，让它去学习对于距离还有速度的掌控。我们会从中挑开得比较好的专业数据，把数据放进去让模型继续去学。但某种情况下，不同的场景可能体现的结果差距就多了。可能周围车多一点，就跟得近一点，周围车少一点，就能跟远一点。所以这个过程中，数据还会持续往里加，持续调优。

虎嗅汽车：NIO IN展示这个世界模型，可能是基于前三秒去想象未来两分钟发生的事情，你怎么能够确定他思考出来或想象出来的东西是合理的？

任少卿：关于预测，传统的方法其实有很多种，第一种就是短时间预测，比如我输出一个接下来几秒钟的可能轨迹。就像我们的模型里面，最后输出一个规划轨迹，其他车也输出一个预测轨迹。这个模型要解决的，就是在当前时间点，自己的车在接下来 3 秒钟或者 7 秒钟怎么开。其他的车接下来 3 秒钟或者 7 秒钟怎么开。但它是一个独立时刻，在某种程度上，就只有这个独立时刻的信息。但现在我们希望能够推演的更长，而且希望推演的这个过程是有交互的。

比如说其他车，我预测它有可能cut in（切入变道），如果它 cut in 的话我就变道，如果它不 cut in，我就不变道，就会有这样一些交互的逻辑。实际上，现在有两种做法去做这些交互和预测。第一种做法是我们去年做的，跟下棋一样，你可以理解成那个AlphaGo。它的逻辑就是，如果我的白子落这，（对面）黑子落这，那我下一步白子再落哪，它黑子再落哪。我下一步落白子有 200 种可能性，它黑子也有 200 种可能性。如果都看未来三步棋，就有 200* 200* 200种可能，这是第一种方式。

另外一种，就是期望模型自己去学习弈棋能力。刚才说的第一种点，你自己想 200 种可能性，别人再想 200 种可能性，这相乘起来是4万，但其实这4万种可能性里面，有绝大多数是根本不可能存在的。所以4万种可能性就要把它压掉，把99%的可能都干掉。这实际上是一个收缩的过程，有一个树分枝的过程，然后有一个砍树枝的过程，接着有个再分枝然后再砍树枝的过程，这两件事情让模型一起做了。那我们说模型做这个想象和砍树枝的过程，就是要模型得想得对，想得合理，把那些不合理的干掉。

还有一点我们想分享的就是：我们在城区里面开车往往都会遇到很有意思的事情，大家都知道有绿波带这个东西。连续碰到两个红灯之后，当你看到前方第三个红灯的时候，起步就不会开那么快了。因为开快了，一脚油门上去，然后你还得一脚刹车下来，自己给自己找罪受。目前还没有任何一个自动驾驶的算法可以做到这种长时间预测（未必是预测红灯，也可能是前方出现的未知拥堵），这里需要一个持续几分钟的逻辑。那怎么让模型干，这就需要拟人性。

图片来源：蔚来发布会，任少卿

虎嗅汽车：世界模型展示的更多是我们观察它的一个过程，但是怎么去用人工干预去训练它？

任少卿：回到世界模型这个训练过程，先说我们希望他干嘛？第一个他能想象，第二个他能推演。关于推演，新手一开始学开车的时候，从一个辅路进来，那离前面的路口可能有100 米，但是要左转，需要横跨四个车道。老司机的反应就是直接开过去得了，但新手一定会思考很多：后面的车速快不快，这么过去行不行？能不能变道？这就是推演的过程。

那模型也需要这么做，只是现在模型用比较显性的方式，给大家展现了这个过程。前面说的端到端，非端到端，这都是局限于自动驾驶这一件事情上。但我想说：世界模型不局限于自动驾驶，我们实际上就想让一个模型，它无论是开车也好，还是一个机器狗在工厂里溜达也好，还是一个机器人在家里干活也好。实际上就是希望有一个模型，具备通用能力，去学会怎么在真实的四维时空里面去高效、安全地运动。

自动驾驶的终极追求：实质性减少交通事故

虎嗅汽车：李斌接受采访的时候，讲了Robotaxi 这个商业模式不是那么 make sense。在他看来，自动驾驶更大的意义应该是两点：让驾驶更安全、更加舒适。你怎么看自动驾驶的终极形态和商业化落地？

任少卿：对，我们很早就认定了自动驾驶真正的两个价值：第一个是解放精力，第二是减少事故。就像你说的，第一个是让人开得更轻松，第二个是开得更安全。

这两点，都需要有新的价值来支撑，开得更轻松的价值，就是说我城区开得更好，当然这个对于宣传口来说，其实也比较难传播。所以解放精力这个事和开得更轻松这事，可能就是接下来的L3智能驾驶更能体现出来。

开得更安全这个角度，就是减少事故。之前大家都是各种发小作文发视频，说白了发了那么多视频，那真实案例到底怎么样？demo 肯定都能做，都能找出来好的视频。但我觉得关于安全，我们自己的追求一定是实质性减少交通事故。什么叫实质性减少事故？比如说，我们几十万车主，去年事故率降低了70%，全量的话，今年要降到比如说80%到90%。这个数据是要有 solid 的，能被证明的数据。

虎嗅汽车：你们有对事故的类型做一些分析和分类吗？

任少卿：从去年就开始，我们已经详细地去做事故的分析，这不是一件容易的事。首先，第一个事情是：你想知道事故细节其实不容易，我们有气囊报警提示，但是气囊报警只占所有事故的0.3%。第二个是：我们去做 IMU 的检测，座舱不是有那个自动传感器，车如果产生撞击，那我去看看它是不是事故。但传感器监测，也只能获取15%的事故数据，还有85%的事故你不知道。IMU检测传感器需要有一个阈值，不能说人在车上踩一脚产生震动，我们就拿出来看一看。所以我们把最新的OCC 感知加进去，这个能把事故监测提升到 95% 以上。

首先得先知道事故的发生，第二步要知道事故的类型，我们实际能对所有全量的事故去分析类型。第三步当分析完事故类型后，需要判断它的损伤有多大，这里又包括单方事故损失和三方事故损失。

有了这些系列分析后，我们才知道还需要做哪些功能，怎么能实质性地减少事故？实际上，最新版本的智能安全辅助功能上线后，我们从保险端数据来看，事故已经往下走了。当然目前时间还比较短，我们会累计足够多的数据后，再跟大家说这个具体数字。这就是我们想做的事，必须看到群体的事故报险数在往下走。关于驾驶安全这个事，我们自己的认知就是：大家要拿出实际数据，你到底减少了多少事故。

智驾领域的玩家会逐渐收敛

虎嗅汽车：蔚来这家公司，芯片、操作系统、自动驾驶等等很多事情都自研。在你看来，自动驾驶时代，OEM 和 Tier 1 （一级供应商）之间的关系会被重构吗？到底是每家 OEM 全都自研，还是多数去依赖 Tier 1，还是这两种方式兼而有之？

任少卿：短期内可能会是最后一种，对于自动驾驶的研发，有的 case 需要 1, 000 小时、1万小时的测试。作为一级供应商，肯定不如车企更容易搞到这么多辆车，我们可以让量产车去反馈问题。而智驾的供应商几乎没有拿到最新数据，即使最大的几个公司也一样，这里就会有它的瓶颈在。而智驾的研发越往后，越不可逆转的趋势就是数据化，数据越多，越能产生新的体验。

其实对于主动安全的开发也一样，100万公里的测试很正常，一公里三五块钱的成本也很正常，这都算比较低的，在国外更要高很多。所有这些数据，还要上传到云端硬盘保存，又是一笔很大的成本。所以很多传统的主动安全供应商，是没有更新逻辑的，就是因为策略成本太高。最后就只做标准场景，多余的场景别做，做了没法验证，没法迭代。其实这个过程中，实质性的事故还是没有减少。

我还想分享一个点就是：中国车企今后想做全球化，技术含量越来越高，数据要求越多，其实成本也会越来越高，不见得会有这么多玩家在智能驾驶这个领域了。我认为智驾这个领域肯定是要相对更规模化，然后要收敛，只是说最后收敛到什么程度。最后比拼的是：大家在新的基于模型、基于数据的这种范式下，谁能跑得更快、做得更好、成本更低，最后逐渐整合。

虎嗅汽车：对于能源战略，蔚来开放换电联盟给其他车企。蔚来的智驾方案，以后也会考虑类似的策略开放给其他玩家吗？

任少卿：我觉得会有这个过程，如果有主机厂对我们的新方案感兴趣，我们其实是有多套方案的。4orin芯片，单orin芯片的，纯视觉做城区等等方案。单orin纯视觉做城区的方案，应该目前市面也没有，我们会是第一个。那相对来说，性价比就比较高，后面我们还会有神玑NX9031。

我为什么愿意做这个事？回到前面说的，自动驾驶一定会向大数据驱动发展，有更多的车，有更好的数据闭环，那你就有更好的竞争优势。基于蔚来体系，我们的数据闭环绝对是全球顶级，那就可以去赋能更多车型。

特别声明：以上内容仅代表作者本人的观点或立场，不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的，请于上述内容发布后的30天内进行。