财经科技创事记

学特斯拉做端到端，可能死得更快？

2024-07-04 23:16:19 创事记作者：

来源：远川研究所

去年八月，工作重心从特斯拉挪开很久的马斯克，罕见地坐着自家的车，在硅谷进行了一场直播。

严格意义上，直播的主角不是硅谷钢铁侠本人，也不是车，而是车辆搭载的最新版智驾软件，采用端到端架构的FSD V12 Beta。在他口中，FSD V12是一张神经网络包打一切，”photon-to-control（输入光子，输出驾驶指令）“的科技魔法。

尽管在全球围观下，FSD V12首秀就闯了一次红灯，但还是有国内车企紧急成立了端到端团队。一年之后，端到端的风已经席卷了中国智驾行业。

这次摸着特斯拉过河的集体运动，似乎和过去两年致敬特斯拉开发Transfomer+BEV、OCC没什么不同，但难度与门槛在变得越来越高。一些智驾从业者笃信的价值、赖以生存的岗位，也在经历瓦解与重构。

“端到端就是scaling law”

与过去两年发生在智驾领域的技术更迭浪潮一样，端到端也不是什么新东西。除开过于久远且简单的ALVINN，此前比较出名的例子有两个。

卡耐基梅隆大学1988年提出的ALVINN，端到端自动驾驶鼻祖

2016年，英伟达发布了一篇名为 “End to End Learning for Self-Driving Cars”的论文，以CNN搭建了一套端到端自动驾驶方案。这篇被引5000余次的论文在学术上取得了不小反响，但未能防止英伟达日后在与奔驰的自动驾驶合作中焦头烂额。

2016年，知名黑客Hotz创办的comma.ai开源了端到端辅助驾驶方案Openpilot，计算平台使用的是一部搭载高通芯片的手机。尽管这套方案在2020年美国消费者报告的评测中获得了最高分，但comma.ai对器件可靠性和功能安全不屑一顾的方案，还是让车企嗤之以鼻。

过去这些年在工业界中，几乎所有的智驾企业在量产时，都选择了与端到端相对的另一条路径：模块化。

模块化结构将智能驾驶系统拆解为多个功能子模块，各模块上下游连接，接力完成整个智驾任务。随着技术的进步和经验的积累，这些模块又不断吸收融合，逐渐形成了“感知-规划-控制”三大模块。

智驾的端到端与模块化方案

到今天，市面上绝大部分智驾系统，是一个人工和智能两分天下的混搭系统：感知依靠神经网络，规划控制则使用人类手动设计的算法（极少数企业融入了一些神经网络）。这一系统的好处在于，利于分工，出了bug也便于分模块检查、解决。

但问题是，模块化的智驾系统在相对简单的驾驶任务上表现不错，但在复杂的驾驶任务面前，它的天花板肉眼可见。

在用户的体验中，到了2024年，智能驾驶还是不够智能。就算是号称遥遥领先的城市高阶智驾功能，依然会有机械感，也会在汇入快速路、通过大型路口时宕机。

智驾工程师们则没空跟消费者们共情，因为他们快要淹死在碎片化任务的海洋里。

在目前的混搭式智驾系统中，感知神经网络要向下游规控模块给出目标级的识别结果。这就需要感知模块的工程师不断定义，“什么是道路上值得被关注的”，往白名单里不断增添物体，训练神经网络认出它们——

从前是车道线、红绿灯、汽车、行人、自行车，后来是各种小动物、拉着一棵树的货车、撑了遮阳伞的摩托；再往后可能是印在公交车上的董明珠和广告牌上的苏炳添。

更难过的是规控模块的工程师，他们要日复一日面对不同场景写if else。其实规控工程师的工作没有那么低级，规控领域有不少对各种场景有概括能力的传统算法。然而这些算法的泛用性敌不过现实的复杂度，在deadline压力下，工程师们不得不头痛医头脚痛医脚，针对各种疑难场景打规则补丁。

不幸的是，这样的规则越多，规则之间相互打架的可能性就越大，整个模块的可维护性就越差。同时，疑难场景源源不断，工程师焚膏继晷地写if else，意味着智驾的规控优化成了一项愚公移山式的劳动密集型作业。

而在智驾企业管理层的视野中，如果要在当下的智驾竞赛中胜出，人海战术尤其是往规控模块堆人力是必要的，但投入产出比又是不可持续的。比如华为车BU的智驾团队，规控部门有上千位工程师[1]。以相当保守的平均50万年薪计，这一部门仅人力成本就超过5亿元。华为ADS智驾系统此前在终端的实际落地价是6000元。

如此演进下去，高阶智驾有滑向三输局面的危险，即使是领头的特斯拉也不例外。但2022年末，Open AI一声炮响，给智驾送来了端到端的复兴。

这年横空出世的ChatGPT让一种AI方法论成为了显学：海量吸收人类的文字信息，通过以预测下一个字符（token）为目标，让神经网络学习文字中蕴含的知识。

当年12月，特斯拉的智驾工程师Dhaval Shroff 向马斯克进言，抛掉那些手写的规则，搭建一张神经网络，让它大量观看人类司机的驾驶视频，要求它输出正确的行驶轨迹。在反复训练中，这张神经网络可能会习得与人类相仿的驾驶知识。

作为这个世界上与OpenAI渊源最深的人之一，马斯克当即指示，就这么办。

2024年1月，经过一年的研发，采用端到端架构的FSD V12向北美用户推送。这一版本号称用单个端到端的神经网络，干掉了30万行C++代码。

端到端的作用当然不只是替代程序员们精心堆砌的屎山，在多个维度上，它表现出了对传统模块化方法的超越。

在智驾系统的信息传递中，感知不再为了与规控对齐颗粒度而被迫丢失信息，系统决策获得的参考信息更全面，更可能达成全局最优；

从实际体验来看，端到端的FSD开起来更加拟人、丝滑。何小鹏上个月刚刚送出“友商CEO认证”，他在加州体验FSD最新版本时说，FSD比他作为加州新手司机开得更好；

在AI离不开的数据标注上，由于不依赖人类定义的识别结果，对各种物体、场景进行人工标注的工作量将进一步减少；

而在已经卷到疯狂的算法迭代速度上，由于规控模块也变成了神经网络，可以24小时工作的GPU们将开足马力训练，能将智驾OTA的周期推至周更乃至日更；

在人力成本上，理想汽车CEO李想的说法则是，不再需要几千人的团队去解决Corner Case。

何小鹏怒赞FSD V12

毫不意外地，端到端由此成为2024年中国智驾企业竞相争夺的技术（有时更多是宣传）制高点。

今年7月，华为与小鹏的两段式端到端智驾方案将推送给车主，理想、蔚来正在加班加点推进端到端下半年上车的计划，Momenta、元戎启行、商汤绝影的端到端方案也会相继在今明年登上量产车。

国内一位智驾公司高层评论，端到端就是Scaling Law。商汤绝影事业部总裁王晓刚说，端到端是今天被验证成功的唯一路径。

在端到端的架构下，智驾将从人力密集型倒向算力密集、数据密集型，智驾有望真正走上大力出奇迹的道路，这是过去两年大语言模型的成功经验。

摸着特斯拉就能趟过端到端的河？

ChatGPT诞生以后，诸多大小企业摸着OpenAI过河，大语言模型风起云涌，国外谷歌Gemini紧追不舍，Meta靠Llama建起了开源生态，国内文心一言、通义千问、星火大模型、盘古大模型等等各领风骚。

如果端到端架起了智驾通向Scaling Law的桥梁，理论上类似的创新成果迅速扩散的局面也会在智驾领域发生。

但在辰韬资本日前举行的端到端研讨会上，光轮智能CEO、前蔚来仿真负责人谢晨泼了盆冷水：摸着特斯拉前进，结果不一定是过河，也可能是掉坑。

大语言模型的格局演变，不宜直接套用到智驾上。

众所周知，人工智能的三要素是算法、数据与算力。在端到端至关重要的数据环节，国内企业目前还没看到特斯拉的尾灯。

与大语言模型可以在互联网上爬取海量文字数据用于训练不同，端到端智驾需要的视频数据获取成本和难度极高。

此前全球最大的自动驾驶公开数据集Nuplan的规模为1200小时，且不是为端到端准备。国内上海AI lab 浦驾团队搜罗了整个Youtube，最终搭建了一个2000小时的数据集OpenDV-2K。

OpenDV筛选、处理了240+个城市的驾驶数据

特斯拉则在端到端神经网络开发之初，就向其投喂了1000万个经过筛选的人类驾驶视频片段，即使以每段15秒计，这也是超过4万小时的高清视频。这是2023年初马斯克透露的数据。

当时特斯拉每天可供进一步筛选的人驾视频以1600亿帧/天的速度增加，大约是148万小时，大部分国内车企今天比去年的特斯拉数据量少两到三个数量级，更不用说智驾供应商。如果持续上传，仅这些数据的带宽和存储费用，就足以拖垮一家小规模智驾公司。

问题不仅仅是数据数量，由于驾驶视频成了端到端系统直接的老师（监督信号），对视频数据的质量要求也在提升。

视频收集的触发机制是否合理，关键场景是否完整，是否收集到了老司机而不是菜鸟的驾驶行为，视频数据又是不是足够多元···每一个细节的问题都有各自的know-how，其中一些特斯拉也没能妥善解决。

不久前，马斯克在推特上解释了FSD V12.4.2推迟的原因，该版本投喂了大量需要接管的复杂场景数据进行训练优化，但在简单场景的驾驶平顺性反而倒退了。这是模型训练中容易出现的灾难性遗忘，需要对神经网络采取一些权重固化措施后重新训练。

国内此前最受欢迎的智驾岗位是算法工程师，但端到端的竞赛是数据驱动的竞争，数据团队的重要性将越来越显性。一家智驾企业的研发负责人认为，若要转向端到端，国内智驾数据团队最紧急的任务应该是补齐闭环仿真的能力，这是以低成本方式对端到端进行验证测试的关键。

与数据层面的差异相似，国内智驾企业在算力储备上与特斯拉的差距肉眼可见。

今年年底，特斯拉预计将拥有100exaflops云端算力，国内相关企业纸面参数最高的是商汤的12eflops，但分配给商汤绝影用于智驾神经网络训练的算力未知。在智驾投入上最激进的华为，用于智驾训练的算力今年刚达到3.5eflops。

特斯拉为容纳H100正在建设的数据中心

算力与数据的制约又会显著影响算法的发展，况且，这一次特斯拉没有留下算法的石头给后来的过河者。

2021-2022年，特斯拉两次召开AI Day，公开了智驾部分技术细节与进展。尽管没有公开源代码，但这两次AI Day事实上起到了引领行业风向的作用，AI Day上提出的Transfomer+BEV架构和Occupancy占用网络如今都成为高阶智驾的基石算法。

但2023年，意识到有竞争对手在“逐帧研究PPT”后，马斯克叫停了AI Day的举办。这让其他企业对标学习的难度陡增。

关键时刻，国内学术界提出的端到端自动驾驶模型UniAD斩获2023年CPVR最佳论文奖，为国内企业提供了可以参考的方向。但是在开环验证体系、小体量样本数据下开发的UniAD，上车还需要一定时间的工程化改造和大规模数据训练。

UniAD 算法结构

在包括但不限于算法、算力、数据等多方面差距的制约下，国内智驾企业对端到端的开发实际上还处于踩坑阶段，一旦过于冒进（或者根本没条件冒进），就有翻车的风险。

因此智驾企业对标特斯拉端到端的时候，往往是在对标两个不同的特斯拉：宣传上对标今天的特斯拉，实际工程进度上对标一年前或者两年前的特斯拉。

神经网络在整合，团队和行业亦然

作为国内智驾开发进度最靠前的两家企业，小鹏与华为在端到端的竞赛中并没有表现出在智驾开城大战中的激进。他们的端到端技术方案均采用两段式，由感知神经网络与规划神经网络相连。

华为ADS 3.0的两段式端到端

这在行业一些人士看来不是经典意义上的端到端，更像是完成了智驾算法的神经网络改造。独立于两家企业的智驾人士认为，这种“两段式端到端“是一种过渡形态，可能会存在与传统方案相似的信息损失问题，但它对算力和数据的要求更低，量产进度更快，对智驾系统问题的溯源和解决更方便。

另一个可能的原因是，智驾企业转向端到端，必然要经历人员与组织架构的调整，历史包袱越重，调整阻力越大。

在这个过程中一个不容忽视的矛盾是，理论上对智驾表现最终负责的是规控负责人，但由于技术分工的历史沿革，大多数智驾企业中更懂神经网络的往往是感知负责人。在端到端的趋势下，以传统算法为核心工作的规控部门容易被整合、降权或者优化。

特斯拉在转向端到端方案后，原规控负责人选择离职。上个月，蔚来的智驾部门感知与规控团队合并为大模型团队，团队负责人为原感知负责人彭超[2]。与前两者不同，小鹏智驾总负责人李力耘此前是规控团队负责人，华为则有着国内智驾企业中最庞大、成绩也最亮眼的规控部门。

但长期来看，无论是大语言模型的力大砖飞成功经验，还是智驾现实的商业化压力，实现一张神经网络解决高阶智驾都是行业的共识。曾经为感知神经网络输出兜底的规控工程师，被神经网络端掉饭碗是大概率事件。

只不过这个过程不会那么剧烈。

智加首席科学家崔迪潇认同的一个观点是，端到端会同时放大智驾系统的上限与下限，因为它是一个神经网络黑箱，在获取更高上限的过程中让渡了一部分传统模块方案具备的可解释性。

如何在智驾系统中保留可解释性，将那些不应被逾越的规则（比如别闯红灯）表征到神经网络中去，保证端到端能安全地落地应用、进化，将是规控工程师们的重要课题。

这会有点像为混动车型打造混动专用发动机的引擎工程师，核心任务是服务好那些最终会消灭他岗位的电机与电池。

商汤绝影总裁王晓刚则说，现阶段智驾行业并不存在一个纯神经网络的量产方案，为了给安全兜底，要么选择端到端与传统方案并行，要么端到端网络后接一些后处理模块或者强安全的代码。神经网络的进与规则的退会是一个渐进的过程。

只是如果说人才还可以流通、转型，那么“所有人都在亏钱”的智驾行业，可能会被端到端更快推到一个整合临界点。

上述智驾企业研发负责人感慨，眼下高阶智驾企业”都活着但又都活得不好“的重要原因，是采用了上一代模块化的技术架构，人力成本下不去，数据飞轮转不起来。

而端到端的高门槛和高效率意味着，不需要也不会有太多车企与智驾供应商掌握端到端。在这场逼近的淘汰赛中，大企业要迎战自身的内耗，小企业只能死磕认知与效率的领先。

[1] 端到端智能驾驶上车，理想、蔚来定下时间表，晚点

[2] 21解读 | 百亿大模型浪潮背后：蔚小理的智驾组织学，21世纪经济报道

（声明：本文仅代表作者观点，不代表新浪网立场。）

分享到:

保存 | 打印 | 关闭

学特斯拉做端到端，可能死得更快？

微博推荐

作者简介

作者文章

推荐阅读

新闻热榜