进击的“端到端”，与迎头赶上的中国企业_新浪科技

2024年伊始，特斯拉FSD V12正式开始推送。对于广大国内智驾企业来说，这或许意味着一次“暴击”。

自特斯拉的FSD V12问世以来，有许多的业者和投资人对其赞誉有加。一位来自某国际金融机构的工作人员甚至对雷峰网《新智驾》表示，如若FSD能够入华，对于国内智驾企业而言，不是简单的“掀起新一轮智能化浪潮”，而是对国内高新技术企业投下了一枚大杀器，将造成后果难以估量的毁灭性打击。

在他看来，特斯拉是以国别来开启智驾的使用范围，不像国内是以城市或者里程数来“开城”。他表示，特斯拉FSD的开放范围，如果换算成实际的里程数和覆盖面积，各方面都是远高于国内，但很多国内同行对此还没有引起足够的重视。

就上述观点，雷峰网(公众号：雷峰网)《新智驾》与国内某智驾公司的技术人员进行了交流。该工作人员表示，FSD的性能相当强悍，现阶段国内消费市场能与之PK的，只有“那家”通讯技术出身的大厂。

他认为，基于目前公开的资料来看，FSD V12强大的关键，在于使用了端到端技术。

更接近人类的驾驶方式

众所周知，传统自动驾驶方案通常采用模块化的方法，分为感知、预测、规划和控制等不同的子系统。每个子系统完成特定的任务，然后将结果传递给下一个模块，最终形成驾驶操作方案。

而端到端自动驾驶方案则采用一种统一的架构，直接将传感器输入数据映射到驾驶控制信号上。这种方法不需要单独的感知、预测和规划模块，而是通过一个单一的神经网络来处理所有的任务，其优势在于能够进行联合特征优化，提高计算效率，并且有潜力通过扩展训练资源来改进系统的性能。

简而言之，传统方案强调模块间的明确分工和顺序处理，端到端方案则侧重于通过深度学习方法，实现直接从感知到控制的转换。由于它模仿了人类如何直接从视觉输入中做出驾驶决策这一过程，也被认为是更接近人类的驾驶方式。

一位高级感知算法工程师告诉新智驾，目前的端到端模型，从技术层面上大致有三种分类：

第一种是轻模块化级联方案，将原本利用规则和经验构造的算法代码用设计好的神经网络来代替，保证下游网络结构也能提取到原始信息。

第二种方案则是借助近期快速爆发的大语言模型，利用大语言模型出色的涌现能力和推理能力，将网络级别的知识迁移到自动驾驶系统中，使其同时具备场景理解和解决实时驾驶问题的能力，例如商汤。

第三种，则较为激进，类似特斯拉这样，利用海量传感器和用户行车数据，忽略中间过程，直接监督最终控制信号的真正的端到端大模型。

FSD V12的跑火，让“端到端”成为智驾圈的热词。同时，也为国内智驾行业染上了一丝悲观情绪：

有业者向新智驾表示，国内智驾行业的发展速度，相比全球最顶尖的技术，滞后了一年左右。他表示，很多国内公司对于国外的顶尖技术亦步亦趋，原创性不足，因此有一定的滞后性，而这一特性在端到端技术出现时较为明显。

用端到端扳回一城

对于端到端技术，国内依旧有具备敏锐技术嗅觉的企业，例如元戎启行。

据新智驾了解，早在23年初，元戎启行就和英伟达高层交流并展示了自己的端到端计划。并且，元戎的端到端模型今年就会在消费市场落地。

在元戎启行CEO周光看来，端到端能够以一种很好的、AI Driven的方式，去打造更具智慧、可靠的智能驾驶汽车。只不过有AI背景的他，更早察觉到了这一点。

他说，传统的模块化模型是基于规则的，本质上是由人通过不断敲代码制定规则的方式，让智驾系统来驾驶，因此驾驶动作的“机械感"很强，但实际的道路状况千变万化，规则无法全部解决。

端到端模型则不一样，它锻炼的是系统的自主学习、变通的能力，对驾驶环境全场景的理解能力更强。

周光举了两个例子：

比如，搭载端到端模型的车会顾虑后车需求，在停车的状态下，可以“看到”后车打转向灯，主动礼让后车右转，而传统的模块化模型没有办法这么”人性化”。

再比如，压实线的规则在不同城市的执行方式是不一样的，有一些城市或一些路段非常严格，必须严格遵守。但有一些城市的路边会有很多违停车辆，或者道路施工，所以车辆不得不压点实线，借个道才能通过。如果单纯基于规则，那车辆到底该不该压实线？这很难回答。

遇到这样的情形，端到端模型则更能体现优势：它的全场景理解能力更强，会根据当地人的驾驶风格以及实时路况来做决策。

而且在效率方面，模块化模型也存在一定的劣势。

周光表示，传统模块化模型的信息传递，需要经过不同模块，而模块间存在gap，造成信息减损，带来安全隐患。

出现问题时，模块化模型也需要工程师手动处理case。一位熟练工程师一天只能处理10多个case，而技术水平略低的工程师，能够处理的case则更少。这意味着数据越多，处理起来越棘手，效率也更低，只能不断增添人手。

假如这种情况发生在某款已经量产的车型上，那么后果会很严重。

与之相反，端到端模型则是数据越多越聪明。

依据OpenAI已经验证过的Scaling Law（比例定律），在数据集规模以及计算资源不断增长的情况下，模型的性能将会单调提升。因此只需要给满足Scaling Law的端到端模型，“投喂”大量人类老司机的驾驶数据，它就能学习到驾驶方法。

“Tech Vision”，AI公司的命脉

周光认为，之所以准确判断出端到端技术的重要性，源于自己的Tech Vision。

他说，Tech Vision是AI公司的命脉，其核心是要对技术有准确的预判，以及具备终局思维。一家公司不应该耗费精力去做一些过分雕花的事情，却没能解决用户真正的痛点。

凭借这种敏锐的技术嗅觉，早在2017年，周光就意识到了前融合的重要性，虽然当时很多企业还在做后融合，但周光坚持进行了前融合的技术规划。如今看来，这一举措让元戎启行在all in端到端时，避免了“大象转身”般的窘迫。

但在真正打造端到端模型的时候，周光还是选择了循序渐进的方式。他将这一过程，总结为“三步走”：

第一步，将后融合感知技术，变成了多传感器前融合感知技术，把多个传感器感知的数据放到一个神经网络里。

在物体检测层面，元戎用 AI 的能力把全场景感知的能力建立起来，让感知的准确率、鲁棒性大大提升。

第二步，让系统摆脱了对高精度地图的依赖，让模型可以进一步感知道路拓扑结构，让预测和规划由规则驱动变成了数据驱动。

第三步，是推出端到端模型，将感知、预测、规划三个模型一体化。

周光称，可以将这一模型理解为，原本三个独立模块，现在被直接相连，看到不同的路况都能做出相应的驾驶反应，“所见即所得”。

他表示，这其中跨出的每一步，都是一次重要的技术突破。由于坚持技术原创，所以在研发时面临很多不确定性，也被质疑过。但他强调，AI 2.0 的时代已然来临，竞争只会更加激烈，走在行业前列的公司几乎都会选择闭源，这是必须认清的现实。

上车，新一轮的挑战

元戎启行对技术的执念，使其成为国内最早能够将端到端模型应用到车端的企业。

此时，行业内同样有质疑的声音，认为国内公司现阶段谈端到端上车还不太成熟，尤其是基础建设和数据方面的储备都不够。

对此，周光表示，打造端到端模型的核心因素有三个：模型、算力和数据。

端到端模型，元戎已经打造好了；算力方面，元戎和英伟达有深度技术合作，元戎的大股东阿里也会提供支持；数据层面，元戎和多家车企有了量产合作，客户为元戎提供了很多真实的、脱敏后的行车数据，而且涵盖的场景很全面，足够训练模型，可谓是万事俱备。

同时，各家主机厂对于端到端方案的上车，态度也非常积极。

周光称，当下高速路段的智能驾驶，各家已经做得比较成熟。相反，城区才是真正的战场，可以说得城区者得“天下”。但城区的路况非常复杂，也存在很多长尾场景。

所以，周光认为城区的智能驾驶还没有跨越早期市场与成熟市场的鸿沟，消费者对城区NOA没有产生依赖。鉴于此，主机厂非常期望能找到一个厉害的技术伙伴，帮他们做好城区NOA体验，而元戎提供的端到端模型正好符合他们的需求。

据周光介绍，目前主机厂对于端到端方案，有以下几个关注点：

第一，系统是否能够在复杂路段流畅行驶，保证舒适的体感。

第二，全场景的理解能力强不强，能否有一些类人的决策。譬如，会顾虑后车需求，在停车的状态下，“看到”后车打转向灯，主动礼让后车右转。

第三，安全层面的兜底策略是否可靠。

第四，后期OTA的天花板高不高，是否能新增一些让人惊艳的功能。例如，雨天车辆在靠近人行道的车道行驶时，遇到积水会主动减速，避免把水溅到行人身上。

周光说，以上所述的几点核心需求，元戎都能满足。

然而，顺利上车只是第一步。有多位行业人士向新智驾表示，更大的挑战其实在于工程化。

周光也承认，工程化能力是一项很大的挑战，需要去遵循汽车工业的整套车规标准，精细地拆解、解读标准，再把这些标准融合到整个研发流程中，实现工程化的转变。

不过同时他也表示，元戎的研发同事都期望能够推动产品更好更快地落地，促进形成技术闭环，所以大家都有很大的决心去迅速补齐工程化能力，让搭载元戎方案的量产车在今年顺利落地。

结语：

对于很多科技企业而言，搭载了端到端模型的特斯拉，属实是个实力强劲的对手。但换个角度来看，FSD虽然在美国和加拿大都已经开通，可众所周知，两国的人口密度都相对较低，城市规划也和许多国家或地区不同。如果换成中国的北上广深、日本的东京、韩国的首尔这种人口更为密集，路况更为复杂的城市，FSD又会有怎样的表现呢？鹿死谁手，或许犹未可知。

同时，端到端模型实际上也具备着相当强的技术复用能力，智能驾驶是重要的应用场景之一，但同时也是最能击穿“次元壁”的应用场景，它就像阿基米德口中的那个支点，能够撬动一个全新的世界，一如借助于手机这个“支点”而被撬动的物联网世界。假以时日，通过智能驾驶而不断完善的端到端模型，将会赋能于更多的场景。

比如，包括周光在内，许多人心心念念的人形机器人。