财经科技创事记

蔚小理端到端：形式不同，悲欢相通

2024-08-19 22:06:40 创事记作者：

来源：远川研究所

在中文互联网，马斯克日常被调侃为“源神”，用以嘲讽“特斯拉不开源，中国就造不出纯电车”的恨国党。

不过在智驾领域，特斯拉确实在相当长的时间里，通过举办AI Day分享技术细节的方式，扮演着引领行业前景方向的灯塔（注：灯塔可能不止一座）。

可从去年开始，特斯拉取消AI Day举办，只宣告技术进展，不再讲技术实现，留给外界的，只有采用端到端技术方案的FSD频传的捷报。今年，各家智驾企业翻开特斯拉给出的端到端习题，赫然在答案一栏处发现一行小字：解题过程略。

没有参考答案的端到端，究竟要怎么做？端到端智驾的研发，有没有合理商业模式的支撑？

问题率先给到造车新势力代表蔚小理。

打开黑箱

去年到今年上半年，国内智驾头部玩家的竞争主旋律，是在传统的模块化技术架构下，以人海战术比拼开城速度。

在此过程中，蔚小理的智驾团队都扩充到千人（或以上），星夜兼程地训练、测试、验证，攻克Corner Case。

特斯拉FSD验证了端到端的效果，让大家有机会从重复劳动中解放出来。但代价则是，智驾传统技术栈的各个模块可以被测试、验证，而端到端的智驾系统，是一整个只知结果不知过程的黑箱。蔚小理们走向端到端，面临的共同问题是：

在智驾这种强安全需求的功能下，完全的黑箱是不可接受的，势必要想办法打开这个黑箱，了解系统“为什么会想这么干”，或者至少让它的输出相对可控。

小鹏的选择是分段式端到端的渐进式路线，其技术方案是感知神经网络XNet+规划神经网络XPlanner+侧重场景理解的视觉语言模型XBrain。

小鹏分段式端到端

在端到端的技术鄙视链中，分段式端到端目前处于下游。

激进派认为分段式端到端仍然没有摆脱传统方案的范畴，尽管感知与规划都实现了神经网络化，但一个关键点没有改变——连接两个神经网络的依然是人类定义的接口，这意味着信息损失，以及大量人工标注，整个流程不利于全局最优，也不利于自动化。

但分段式端到端的优点也同样在此：有人类定义的接口，意味着会输出人类能看懂的中间结果，便于检查、定位问题，不至于牵一发而动全身，比如感知出问题了不用把整张网络都重新训练一遍。训练两个较小的模型拼起来，也比训练一个大端到端模型难度更低、消耗的算力资源更少。

更重要的是，这种方式理论上更容易保住智驾表现的下限。

7月30日，小鹏XNGP智驾全国全量开放的发布会后，何小鹏说，“楼要一层一层搭，想跳跃式发展或许有可能，但风险会极高“。

这句话被解读为对友商的劝诫。

7月初，理想在夏季发布会上介绍了正在开发中的一段式端到端方案：4D One Model 端到端。在一段式端到端中，感知与规划被打包到一张参数量数亿的神经网络中，老司机的驾驶视频成为最主要的训练数据。这一方案支持信息无损传递，数据流转的自动化程度更高，比小鹏、华为的端到端方案更加激进。

不过这一端到端方案存在泛化性不强、可解释性差、下限不稳定等问题，为此理想给端到端模型并联了一个22亿参数规模的VLM（Vision-Language Model，视觉语言模型）大模型。这个模型对复杂交通场景、交通文字标识有更强的理解力，能够为端到端模型的驾驶决策提供参考，提升智驾系统的表现。

理想端到端+VLM快慢系统智驾方案

8月，理想这套端到端+VLM快慢双系统智驾方案面向专业用户开启千人内测，官方预计今年底或明年初面向普通用户推送。

在此之前，理想在用户认知中智驾并不领先，给销售带来了不利影响（尤其对战问界时）。端到端+VLM被理想定义为智驾能力弯道超车、跻身第一梯队的关键战役。

相比之下，蔚来对端到端则采取了一种保守且激进的态度。

蔚来的保守在于，目前对端到端的使用非常局限，并未将其用于城市NoA，仅用于主动安全功能。7月11日，蔚来开始推送采用端到端方案的AEB，来解决传统方案AEB覆盖场景不足的问题。

蔚来激进的一面则是，今年晚些时候将推送的智驾，似乎准备跳过目前流行的端到端上车潮，直接前往下一个阶段：世界模型上车。

世界模型是智驾行业找到的最新方法论。2023年人工智能顶级会议CVPR上，特斯拉展示了世界模型的研发成果，以自动驾驶世界模型GAIA-1闻名业界的初创Wayve.ai，则在今年5月融资10亿美元。

世界模型通过学习海量真实驾驶场景视频，可以预测并生成未来一定时间内的驾驶场景视频，做出正确的驾驶决策。它的本质是时空推演。这与人类的驾驶行为相仿，老司机会在脑海中预判、推演其他交通参与者行为和交通流的变化，在此基础上规划驾驶操作。

世界模型比目前的端到端更进一步的是，它的核心任务不仅仅是给出规划路径，更有“预测驾驶场景的像素变化”。这个难度极高的任务，会逼迫模型不仅仅学习优秀驾驶员的行为，还必须广泛地学习交通知识与物理常识。

而蔚来在NIO IN上提出来的是一个难上加难的“世界模型PLUS”，它的复杂度更高、输出维度更多，这意味着可以和真值比对形成的监督信号更多，加速神经网络的训练，同时也可降低系统运行的黑箱程度。但代价是更高的开发难度。

蔚来世界模型，有大量的预测任务输出

作为参考，为了训练仅仅是用于demo、只输出规划路径和视频的世界模型GAIA-1，Wayve.ai就使用了4700小时的视频数据，以160块A100训练了15天。蔚来要训练的世界模型，需要的是高不止一个数量级的数据和算力资源。

而在训练完成之后，如何在保证精度和运行速度的前提下，将一个复杂而巨大的世界模型压缩、塞进算力和带宽都十分有限的Orin-X中，又是另一堆复杂的问题。

而在眼下，初试端到端（即使是谨慎采用）的蔚小理不同程度感受到了端到端“提高上限，降低下限”的效果。

比如小鹏的最新版本XNGP获得了前所未有的掉头能力，但被反馈称高速上智驾表现出现了回退。

理想正在内测中的端到端+VLM方案呈现出了上限高、下限飘的情况。

而蔚来已经推送的端到端AEB，既有在弯道盲区这种非标准场景极限规避鬼探头的表现，也被用户批评出现误刹增多。

L4的研发，L2的前景？

在下限不好把握的情况下，车企还不约而同地转向端到端，很大程度上是因为端到端的上限，将带来足够大的用户体验提升和相应的商业机会。

但随着车企对端到端的涉入越深，一个问号在脑中经久不散：智驾的投入产出比，到底能不能算过账？

为了卖出更多的FSD，特斯拉今年3月将其订阅价格从199美元/月降至99美元/月（买断价格从1.2万美元降至8000美元）。然而今年5月国外数据咨询机构通过对3500名用户信用卡付费信息的分析，判断FSD的转化率仅有2%，引来马斯克在X上辟谣“转化率远超2%，拜托”。

不过远超2%也还远远不够。特斯拉正在德州工厂建设一个预计规模达到10万张H100/H200的超算集群，以每张H100 2.5万美元的优惠价格计算，仅购买计算卡的资本支出就会超过25亿美元（将其建设为数据中心并持续运营的成本更高），抵得上208万辆特斯拉一整年的FSD订阅费。

国内车企的智驾商业模型更不乐观。

小鹏今年为AI准备的研发费用为35亿元，理想这个月则将智驾的资金门槛设定为10亿美元，但无论是小鹏的XNGP还是理想的NOA，都随高配车型标配，无需付费购买。蔚来未采用免费策略，高阶智驾功能NOP+定价每月380元，曾经短暂地取得过收入，但目前新车随车附赠1-2年NOP+免费使用期。

包括特斯拉在内，国内外高阶智驾仍处在赔本赚吆喝的阶段。

矛盾在于，在进入城市NOA的比拼、转向端到端范式后，这些企业的智驾研发强度实际已经面向L3乃至L4级自动驾驶，但主流市场对其的价值认定仍然是“不值得为软件额外付费的L2级辅助驾驶”。

要解决这个“期望价值与实际价值的落差“，看起来最有前景的方式是进入最大的L4自动驾驶市场，Robotaxi。

2018年，大摩为Waymo的Robotaxi开出了800亿美元估值。而马斯克的铁粉，方舟投资的木头姐今年6月给出一份预测，2029年特斯拉Robotaxi的收入“保守估计”会达到6030亿美元，助推特斯拉市值届时达到7万亿美元。

在此之前，马斯克在推上宣布将在8月推出Robotaxi车型（已经推迟到10月10日）。

商业回报还没大力出奇迹

要不要做Robotaxi，今年成为摆在蔚小理面前的热门问题。

对特斯拉跟得最近的小鹏，答案是YES。7月，何小鹏公开透露，小鹏汽车将在2026年推出Robotaxi。

何小鹏认为Robotaxi的硬件需求远比想象中复杂，但能力可以快速成长的端到端+大模型的软件算法组合，足以解决L4自动驾驶。何小鹏为团队定下的目标是2025年下半年，XNGP的体验对标谷歌Waymo的Robotaxi。

不过，造车本身已经是一项重资产生意，造出大批Robotaxi并经营一个无人驾驶打车平台，将无限拉长商业链条和投资回报周期。谷歌今年向Waymo注资50亿美元，小鹏不可能如此财大气粗。

6-7月，何小鹏先后拜访了滴滴CEO程维与Uber CEO达拉·科斯罗萨西。他说，小鹏并不想运营Robotaxi，而是希望向全球合作伙伴输出车型和自动驾驶技术。

Uber的Robotaxi，目前与现代合作

车企携端到端向Robotaxi的迫近，引来了不少L4自动驾驶从业者的反弹，包括前图森未来CEO侯晓迪、小马智行CTO楼天城、轻舟智航总裁侯聪。他们有的怒喷车企神话端到端，有的说车企相关能力体系不健全，但核心论点保持一致：

车企的高阶智驾虽然进步神速，但本质上还是在辅助驾驶的框架内设计，关注的核心目标是可用范围与成本，而Robotaxi最重要的是可靠性与安全性。目标的不同决定了两者难以使用相同的软硬件，车企的高阶智驾很难平滑过渡到Robotaxi[1][2][3]。

这正中李斌下怀。在7月27日的采访中，他明确表态，”不认为Robotaxi是让人兴奋的建树和商业模式“，并怒斥：

“智能驾驶的价值，不是把今天那么辛苦的专车司机、出租车司机的工作搞没了”。

他不看好robotaxi的另一个理由是，因为道路资源有限、政府部门管制，robotaxi不可能无限制投放，这让其很难拥有像软件云服务一样高边际收益的生意模式。

李斌一直坚持人们会想要拥有一部自己的车，因此蔚来智驾的目标是帮助驾驶员解放精力、减少事故，商业路线的关键词则是规模效应——面向普通用户多卖车，向足额用户收取高阶智驾的订阅费用，摊薄成本、获取收益。

不过，在成本高昂的智驾面前，蔚来不到60万的累积用户规模仍然不够，对外输出智驾能力成为一种选择。蔚来智驾负责人任少卿，最近首次表达了蔚来向其他车企开放智驾方案的意愿，就像蔚来开放换电那样。

相比之下，李想对智驾是“技术判断激进，商业策略保守”。

李想今年在重庆汽车论坛上立下Flag，端到端+VLM的组合，会在三年内实现L4级别自动驾驶。但不同之处在于，理想完全没有想过Robotaxi这门生意。甚至于，理想到目前为止仍没有表露出对智驾软件收费的兴趣，其官网挂着的LOGO仍然是“全场景智能驾驶，终身零订阅费”。

这与理想所处的竞争态势相关。过去一年，理想直面鸿蒙智行，销量承受了显著压力。而鸿蒙智行最锋利的矛，是华为的ADS智驾能力。

在鸿蒙智行众界携华为ADS 3.0（买断落地价约1万元）汹涌而来，进一步给理想上压力的时刻，理想比之前好用但又免费的AD MAX智驾，可以帮助抢下更多订单。与小鹏、蔚来不同，理想的智驾KPI并不是取得经营收入，而是为销量服务。

然而，在国内汽车行业进入淘汰赛的阶段，蔚小理的智驾业务不可能再长期处于交个朋友的状态。

一张训练卡的成本10万元起跳，一个千人团队的人力成本每年10亿起步，作为蔚小理本就最烧钱的业务之一，智驾迈上了更消耗资源的大力出奇迹道路，但能不能同样收获大力出奇迹的回报，还写满了不确定。

参考资料

[1] 慎勇者侯晓迪，甲子光年

[2] 和楼天城谈Robotaxi：“L2越厉害，就离L4越远”，腾讯汽车

[3] 特斯拉把 Robotaxi 想简单了 | 对话轻舟智航联合创始人侯聪，云见insight

编辑：罗松松

视觉设计：疏睿

责任编辑：罗松松

（声明：本文仅代表作者观点，不代表新浪网立场。）

分享到:

保存 | 打印 | 关闭

蔚小理端到端：形式不同，悲欢相通

微博推荐

作者简介

作者文章

推荐阅读

新闻热榜