特斯拉带火的端到端，能被理想发扬光大吗？_新浪财经

端到端究竟该怎么做，至今业内没有答案

文 | 包校千

编辑 | 赵成

短短一年时间内，智能驾驶的主旋律从高速公路挺进城区道路，而近来车企高频宣传的“端到端”，又让参赛选手卷入到新的赛道之中。

“端到端”之所以备受推崇，则要归功于特斯拉的FSD V12（特斯拉研发的自动驾驶系统）。其智驾的系统能力在短短数月间超越了过去数年的积累。凭借这一质的飞跃，“端到端”也被认为是迈向完全自动驾驶的分水岭。

实际上，端到端的第一端是感知端，如车辆的摄像头、激光雷达输入环境信息部分；第二端则是控制端，当车辆收集到环境信息后，要做出决策并对车辆行驶轨迹进行控制，让车辆根据环境进行加减速或避让等。因此，环境感知、决策规划、控制执行，三个模块形成了自动驾驶的底层操作逻辑。

但三者相对独立，只能依靠固定的语言和格式传达信息，在处理上有些死板，特别是在决策层方面，其各种决策依靠的是工程师提前设想和写下来的规则，如果出现没有提前写下来的规则，决策层可能就会出现决策错误。另外，信息在三个模块之间传输始终是有延迟的，并且有可能在信息传输的过程中导致数据缺失，从而带来一些安全隐患。

如今众玩家比拼的端到端，则是通过大模型将感知、规划和控制三个模块集成起来，消除三者之间的界限，让它们成为一体。

在将三者整合之后，工程师不再需要写规则告诉系统什么是车道线、红绿灯、交通规则等，直接抛弃规则，并运用大模型技术在大量的驾驶数据中学习人怎么开车，寻找驾驶的规律。相比之前工程师写下的规则，大模型学习之后能够迅速找到更加符合场景的应对策略，让车辆更似真人驾驶。

然而，当中国各路选手翻开特斯拉给出的端到端习题时，却没有任何参考答案和提示。对于智驾技术架构的摸索，大多数团队都是从2023年才刚刚开始的。

在众多参赛玩家中，理想是少数的激进派。其采用“4D One Model”的一体化决策网络,即把感知决策合二为一的“一段式端到端”技术方案。该方案可以实现从数据输入到路径输出只经过一个模型。而华为、小鹏等企业所采用的则是“分段式端到端”的渐进发展路线。

为了在智能驾驶领域拔得头筹，从9月10日起，理想的部分车型正式升级为新一代智能驾驶技术方案，即“端到端+VLM（视觉语言模型）”。

“从端到端开始，大家真正用人工智能的方式去做自动驾驶了，我相信或早或晚，头部玩家一定都会做这个方向的。”理想汽车智能驾驶研发副总裁郎咸朋向我们表示。

01 从“城市NOA”

转向“端到端+VLM”

和华为、小鹏等智驾头部玩家相比，理想一直处于追赶状态。理想汽车董事长兼CEO李想曾放出豪言，其自研智驾系统在2022年完全可以和华为、特斯拉正面较量，但其智能驾驶无论是在规划能力还是横向控制方面，一直定位在L2级别，远未达到L2++水平。

为了补足智驾短板，理想从2023年开始集中发力。从去年年初公司决定力推城市NOA年内落地。

尽管身为新势力销冠，但当华为在2023年9月宣布年底推出全国都能开的无图方案后，一直徘徊在月销数千辆的问界在短短一个月后便销量破万，年底更是冲上月销 3 万辆大关。这让理想高层再次把智能驾驶的战略提升了一个层级。在2023年三季度财报电话会上，公司高层表态称，有信心在2024年上半年成进入“经过市场验证的第一梯队”。

不过，在奋起直追的过程中，理想一直在变换智驾路线。

在2023年4月的上海车展上，理想提出了“年内百城通勤NOA”的目标。此后不久，不只是理想，一众车企不但直接宣布做到了量产，还比上了开城速度，宣称年底就能在几十城、上百城，甚至全国使用。但是在去年的成都车展上，理想言之凿凿的城市NOA（针对城市交通环境开发的驾驶辅助系统）却变成了以通勤NOA（可以让用户设定自己的通勤路线，并通过日常通勤时的自动化训练积累特征）来实现。

图源 IC

和通勤NOA这种在限定路线范围内的智驾方案相比，城市NOA要面对更复杂的路段、更多不确定的因素。在此之前，全行业的城市NOA基本都停留在demo（样本）阶段，很多车企连ODD区域（全称OperationalDesignDomain，即运行设计域，是指针对自动驾驶及相关功能专门设计的运行条件，包括但不限于道路类型、行驶区域、速度、环境等）都没跑明白。“如果只是在全国道路上吭吭咔咔地开起来，没什么难度，ACC（自适应巡航控制系统）可以，LCC（车道居中辅助系统）也可以，但如果想让城市NOA在全国道路上开得好，那很难。”小鹏汽车创始人何小鹏曾评价道。

从2023年开始，国内智驾头部车企的竞争转向传统的模块化技术架构下，以人海战术比拼开城速度。在此过程中，新造车企业的智驾团队无一例外地扩充到千人规模，星夜兼程地训练、测试、验证，并攻克极端情况。

城市NOA之所以能成为行业爆点，并演变为一场激烈的开城大战，很大程度上是因为智驾已成为消费者购买决策的主要因素之一。市场研究机构J.D.Power君迪发布的《2023中国新车购买意向研究》显示，智能化体验在购车决策中的影响权重上升到14%，成为继汽车质量和性能之后的第三大决策因素。

当然，理想狂补智驾作业不仅是为了刺激销量，还与李想本人对人工智能的执念有关。

在2023年初的内部信中，李想提到公司的愿景是“到2030年成为全球领先的人工智能企业”。久未露面的李想，在出席今年6月举办的中国汽车重庆论坛时，也分享了对于自动驾驶技术路线的新思考。

他认为，如果自动驾驶团队每天干的活都是靠人工去调试各种各样的cornercase（极端情况），那么人越多，cornercase就越多，离真正的自动驾驶就越遥远。而端到端+VLM+生成式的验证系统，会是未来整个物理世界机器人最重要的技术架构和技术体系。

在7月召开的智能驾驶夏季发布会上，理想首次公开展示了这一全新的自动驾驶架构。该架构主要由端到端模型、VLM视觉语言模型、世界模型三部分共同构成。为此，理想卧薪尝胆了一年，一边继续用NPN减少对高精地图的依赖，兑现去年“百城 NOA”的承诺；一边研发“无图 NOA”，同步进行端到端的预研。

今年7月，理想汽车向1000名内测车主推送了基于端到端模型+VLM的智驾版本。该版本可以达到L2+++的智驾水平，甚至足以支持L3级（有需要时驾驶员要接管）、L4（无需接管的自动驾驶）级自动驾驶产品。

在不到1个月的时间里，千人内测的城市NOA总行驶里程达到21.1万公里，单日城市NOA驾驶最长里程为391公里，单次城市NOA零接管最长里程81.6公里。在此过程中，系统对于司机驾驶数据的学习，让对于环岛、超车的处理能力得到明显提升。在8月成都车展上，理想又同步开启了万人内测，显然是期冀于全新自动驾驶技术架构成为弯道超车的利器。

回溯理想汽车的智驾技术路线，从高精地图方案到NPN（神经先验网络），再到无高精地图方案，再到如今的“端到端+VLM”，短短3年内，智驾团队尝试了多种方案。然而在技术架构快速更迭的过程中，智驾体验虽然更好了，但系统到底运用了司机掌握的哪些技巧和规则，端到端的不可解释属性，让工程师和使用者还无从得知。

在 L4级自动驾驶（高度自动驾驶）真正实现之前，坐在驾驶位置的还是人，因此安全、可靠、稳定，才是用户对当前智能驾驶的检验标准。如何印证技术的安全性与先进性，是所有玩家无法回避的核心问题。

02 激进派PK保守派

智驾时代上半场，系统能力的上限取决于产品的设计能力，例如下匝道、超车变道、走ETC等能力，这需要逐一进行拆解和细化。进入到智驾时代下半场，端到端的应用能让系统能力的上限更高，在一些关键场景的表现更加拟人，更加灵活自如，摒弃了传统智能驾驶系统的生硬的“规则感”。

郎咸朋称，他们在训练了80万条数据量时，系统还不能通过环岛，但是在训练了100万条后，惊喜地发现系统可以做到了。

理想汽车智能驾驶研发副总裁郎咸朋

理想方面认为，端到端是真正用人工智能的方式去做自动驾驶了。只要用更多数据训练模型，系统就会不断变强，表现可能超过人类司机。

虽然端到端进化速度很快，但毕竟属于“黑盒”模式，对于其能力的评价和测试是不确定性的，很难测试和验证。当大模型遇到很多没学明白的地方时，就容易出现下限问题。比如特斯拉车主就遭遇过危险时刻，当十字路口的直行道排队较长，特斯拉的autopilot（自动驾驶）直接拐到左转道，然后红绿灯一亮，直接又加速斜插回直行道。差点和直行车撞上。所幸，驾驶员一脚踩住了刹车。

因此，类似场景既需要算法覆盖，用有优质的数据强化训练，让系统学会安全的驾驶习惯，同时还要有兜底的手段，比如驾驶者打算进行180°的急转向，理想智驾的控制模块就会对其进行约束。

为了让智驾的安全性得到保证，理想设置了安全兜底模块，确保系统有绝对的下限。今年7月，理想汽车正式推送全自动紧急转向AES（自动紧急转向）。AES在自动紧急制动系统AEB（自动紧急刹车）的基础上，将一维的纵向制动，升级到了二维的制动及转向，规划多条躲避路径并选择其中最优的进行避撞。“用算法、冗余一起来解决安全问题，是在最极端的情况下，最兜底的一种保证绝对安全的方式。”郎咸朋表示。

据了解，小鹏、极越等保守派玩家采用的是两段式端到端，即感知和规控分为两个模型来做。以小鹏汽车为例，其技术方案是感知神经网络XNet+规划神经网络XPlanner+侧重场景理解的视觉语言模型XBrain。

对此，激进派认为分段式端到端仍然没有摆脱传统方案的范畴，尽管感知与规划都实现了神经网络化，但一个关键点没有改变，即连接两个神经网络的依然是人类定义的接口，这意味着信息损失，以及大量人工标注，整个流程不利于全局最优，也不利于自动化。

不过，分段式端到端的优点也同样在此，有人类定义的接口，意味着会输出人类能看懂的中间结果，便于检查、定位问题，不至于牵一发而动全身。比如，感知出问题了不用把整张网络都重新训练一遍。更重要的是，分段式端到端更容易保住智驾表现的下限。

理想选择的一段式端到端，则是用传感器输入，模型推理完毕后直接给到轨迹规划用来控车的一体化端到端模式。

其对于坚持采用一段式端到端的解释是，这种方式能够解决中间信息的损失。倘若中间增加了人为的信息消化过程，分段式端到端的效率可能会所有降低，能力上限也会受到约束。

对于能力下限的解决方案，理想设计了一套多系统结构，即以端到端为基础，整合具备兜底和泛化能力的VLM视觉语言大模型和用于验证和强化学习的世界模型。

2024款理想L9

VLM视觉语言大模型擅长的是逻辑推理，能够去执行复杂的分析，在驾驶中给“端到端”系统提供更加符合逻辑、准确的驾驶决策。比如当车辆行驶到一个复杂的路段，同时又遇到一个水坑，这时候其会调用大脑系统2工作，处理复杂逻辑并推演，两个系统实时运行，相互配合协同，目的是让车辆更拟真人驾驶。

世界模型是智驾行业找到的最新方法论。它通过学习海量真实驾驶场景视频，可以预测并生成未来一定时间内的驾驶场景视频，做出正确的驾驶决策，本质上就是时空推演。在2023年人工智能顶级会议CVPR上，特斯拉展示了世界模型的研发成果。

使用世界模型比目前的端到端更进一步的是，它的核心任务不仅仅是给出规划路径，更有“预测驾驶场景的像素变化”。这个难度极高的任务，会逼迫模型不仅仅学习优秀驾驶员的行为，还必须广泛地学习交通知识与物理常识。

理想的世界模型是通过扩散模型技术和3DGS技术（即三维高斯溅射技术，是一种先进的三维建模和可视化技术），把曾经遇到过错题以及遇到过的场景，举一反三地形成模拟题，实现不断地测试模型能力，不断地优化各个城市表现。它相当于是一套题库，来源有两种：

一种是根据真实车主的数据，产品和整车的主观评价团队，与内部司机共同制定“老司机标准”，然后给理想车主的驾驶行为进行打分。如果在安全、法律法规等维度存在不安全、不合规的情况，模型就不能交付给用户。

另一种方式类似“错题库”，在正常的测试和开车过程中，用户的接管和退出就是“错题库”。

真题库和错题库都有了，理想还会再生成一些模拟题，根据现有的数据举一反三，比方说有个匝道总是出问题，那么匝道的场景，理想都会进行训练，再生成一些匝道的内容，这就是模拟题。

03 标配和免费，

理想能否坚持到底？

2024年1月，特斯拉开始大规模推送的FSD V12，带火了“端到端”，也让智能驾驶迎来了ChatGPT时刻。一时间，仿佛L4级别的智能驾驶呼之欲出。

图源 IC

相比于特斯拉，以理想、蔚来、商汤、元戎为代表的科技公司，其技术路线向端到端转移大多是从2023年底才开始。这意味着无论是模型的建立还是数据训练，中国车企与特斯拉之间始终存在着一定差距。

去年，理想对于智驾技术的判断是，只落后特斯拉半年。今年，这个差距可能还会再小一点。在郎咸朋看来，理想的技术架构和特斯拉相比代差不大，甚至更有优势，“因为我们有VLM，有系统2，特斯拉只是有系统1，端到端。”

郎咸朋表示，理想提出端到端+VLM的系统架构后，行业内很多企业也开始提及双系统理论的好处，无论是对于理想汽车来说，还是对于特斯拉来说，其实都是在向双系统方向发展。

从训练算力和训练数据方面来看，中国企业的相关布局也更胜一筹。“特斯拉应用数据的合规性会受到一些约束，训练算力的部署搭建也还需要时间。”郎咸朋认为，从这个层面上看，国内车企跟特斯拉的整体差距不会越拉越大。

目前，理想有80万车主、超过12亿公里的数据，五千张A100、A800等同的训练卡数量，训练算力达5.39EFLOPS，在行业内都属于头部。但这是一场昂贵的竞赛，招兵买马、购置 GPU、训练模型，这是巨额开支，需要有健康的利润来提供支持。

但外界认为，理想的智驾业务很激进，商业策略却相对保守。

李想在重庆汽车论坛上誓言，端到端+VLM会在3年内实现L4级别自动驾驶。但理想不但没有想过Robotaxi这门生意，甚至到目前为止仍没有表露出对智驾收费的兴趣。

从公司成立第一天开始，标配和免费就是理想进入智能驾驶就制定的策略。未来，“有监督的自动驾驶对所有AD Max的车主也是不收费的。”郎咸朋告诉我们，公司目前的交付量比较好且企业经营稳健，也有足够的资源投入智驾研发。

与小鹏、蔚来不同，理想的智驾KPI并不是取得经营收入，而是为销量服务。过去一年，理想直面鸿蒙智行，销量承压。而鸿蒙智行的最大卖点，就是华为的ADS智驾能力。理想免费的AD MAX智驾可以在最大程度上帮助抢下更多订单。

理想 L6

据理想汽车发布的数据显示，公司7月-8月交付量达到5.1万辆和4.8万辆，同比增长49.4%、37.8%。展望第三季度，理想汽车预计季度交付量达到14.50万辆至15.50万辆，同比增长38.0%至47.5%；收入总额预计达到394亿元至422亿元，同比增长13.7%至21.6%。根据指引，9月理想汽车将保持5万辆交付，并在10月实现累计交付百万辆。

郎咸朋表示，无图NOA全量推送之后，门店的试驾量和销量都有大幅度的提升。近两个月，专门进店试驾AD Max的数量翻了一倍。其中30万元以上的车型，AD Max超过AD Pro，占比提高到70%，理想L9 AD Max占比甚至达到90%以上。

如今，中国汽车行业已全面进入智驾时代，淘汰赛已然开始，智驾业务的烧钱程度很难再让新势力们一直保持“交个朋友”的状态。一张训练卡的成本10万元起跳，智驾千人团队的人力成本每年10亿元起步，理想汽车的端到端智驾最终能否收获同等回报，还需要等到全面交付时再下定论。

责编：秦琪