智能汽车专题报告:算法进阶,自动驾驶迎来端到端时代

智能汽车专题报告:算法进阶,自动驾驶迎来端到端时代
2024年07月26日 15:56 市场资讯

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

1、 FSD V12 效果惊艳,Robotaxi 迈向现实

1.1、 特斯拉 FSD V12.3 登场,自动驾驶辅助功能推向全量用户

特斯拉 FSD V12.3 登场,智驾时代更进一步。早在 2023 年 5 月,马斯克即在 社交媒体上表示,FSDV12 将是一个视频输入+控制输出的端到端的自动驾驶算法; 2023 年底,FSD V12 版本开始在北美的特斯拉车辆中试用;2024 年 3 月 12 日, FSD V12.3 推出,体验跨越式提升;随后,FSD 去掉“Beta”改为“Supervised”并 开始向所有北美用户开放,允许免费试用 30 天,另外马斯克还要求北美地区销售 必须带客户短途试驾 FSD 才能交车。2023 年 4 月,FSD 的订阅价格从 199 美元降 低至 99 美元,买断价格从 12000 美元降低至 8000 美元。价格下探叠加向全美用户 开放,表明公司马斯克已经对 FSD 功能的完善度相当自信,意味着将有百万数量级 的用户有机会体验到自动驾驶辅助功能,有望显著增加 FSD 的曝光度以及订阅率, 同时大规模试用也将为 FSD 收集可观的数据,助力功能完善。

1.2、 端到端算法加持,驾驶体验显著提升

特斯拉 FSDV12.3 推出以来,驾驶体验丝滑优雅,获得市场广泛好评。具体而 言,我们看到几个方面的驾驶体验显著改善。(1)解决复杂场景的能力大幅提升: 例如可顺滑处理无保护左转和环岛等场景,相比 V11 大幅进步;无缝处理施工路段 等复杂场景;对人类意图的理解加深,部分场景可以识别手势;可以根据其他车辆 行驶状况判断当前场景是否可以通行,接管次数大幅降低。(2)驾驶体验丝滑平顺 拟人化:转弯、红绿灯启停无顿挫感,加减速拟人化;遇到开双闪的车辆占道会毫 不犹豫变道绕行,流畅自然;遇到周围骑行者、行人绕行时从容淡定,绕行幅度拟 人化;遇到其他车辆倒车,会留足空间,驾驶具有“礼貌性”;拟人化程度高,经 常让乘客难以区分到底是人还是算法在执行驾驶行为。(3)新增部分功能:部分场 景可以掉头,抵达目的地后可以自主寻找停车处停车,不依赖导航。当然当前版本 也会出现一些问题如距离道路边缘近,容易出现剐蹭,对交通规则的遵守度弱,以 及其他车辆意图判断仍需提升,无法倒车等问题。未来,随着算法的迭代,小的问 题有望逐步修复。

1.3、 特斯拉推动,Robotaxi 有望迈向现实

随着自动驾驶性能的进一步提升,Robotaxi 有望成为现实。特斯拉关于 Robotaxi 的规划早在 2016 年发布的《宏图计划第二部分》(Master Plan Part Deux) 中即出现,后续马斯克亦在多次财报电话会议中提及。具体而言,一旦特斯拉实现 了完全自动驾驶,将创立一个共享出行平台,通过特斯拉车辆来实现 Robotaxi 运营。 特斯拉建立自有车队,同时特斯拉车主也可将自己的车辆加入到共享车队,后续特 斯拉从每个订单中抽成。Robotaxi 将与造车业务实现协同,其运行数据将成为整个 特斯拉数据闭环的一部分,最大化提升自动驾驶的盈利能力,此外闲置车辆可以赚 钱将提升车辆的使用效率和特斯拉车辆的吸引力。2023 年 4 月,马斯克在社交媒体 上宣布特斯拉将在 2024 年的 8 月 8 日推出 Robotaxi。目前,自动驾驶功能的完善度 将是 Robotaxi 能否实现的核心,Robotaxi 有望为自动驾驶打开新的成长空间。

1.4、 算力、数据全面加速,特斯拉加足马力快速推进

端到端开创特斯拉自动驾驶新时代。对端到端自动驾驶而言,马斯克在多个场 合表示,模型仅仅依靠神经网络构建,并未加入环形交叉路、红绿灯等场景和元素, 对场景的理解和驾驶行为完全依靠模型自身通过大量的人类驾驶视频训练而学习到。 和大语言模型类似,规模法则(Scaling Law)在自动驾驶领域也效果凸显,对端到 端算法来说,算法之外,更迫切的是需要海量的数据和算力将模型的能力推升到更 高水平。2024 年初,马斯克在多个场合表示,算力制约了特斯拉 FSD 功能的迭代,而在 3 月开始,马斯克表示算力并不在成为限制,FSD 的迭代将大大加快。

回顾 FSD 发展历史,算力累积伴随 FSD 迭代,并进一步强化特斯拉竞争力。 根据特斯财报公布的算力增长曲线,我们可以观察到,在 FSD V11 以及之前版本的 时代,算力基本在等效 5000 片 H100 的水平之下,在 FSD V12 也就是端到端算法 推出前后,算力开始阶跃式提升至约等效 15000 片 H100 水平,此后算力进一步快 速拉升至等效 3.5 万片 H100 左右,时间节点大约与 FSD V12.3 版本推出对应,此 时特斯拉开始向所有订阅用户推送 V12 以上版本,并去掉 Beta 改为 Supervised,同 时为所有用户开启 FSD 试用 1 个月。在 2024Q1 财报电话会议上,马斯克表示, 2023 年底将会有等效 8.5 万片 H100 的算力投入使用,与此前公布的在 2024 年将达 到 100Eflops 算力对应。可以观察到的是,伴随端到端的落地,特斯拉对算力的需 求出现了近乎数量级的提升,这也反过来帮助其算法实现更加快速的迭代。

算力补足的特斯拉 FSD 迭代速度显著加快,每个新版本都带来性能的大幅提 升。特斯拉 FSD 从 V12 版本推出到 V12.3 共推出 7 个迭代的衍生版本,花费了近 4个月时间,而从 V12.3 到 V12.3.6 推出的 8 次版本迭代所花费的时间仅有 1 个半月 左右。功能方面,V9 到 V11 时代更多的是一些微小的性能提升和用户开放规则的 放宽。而 V12 时代以来,新版本的功能实现大跨步提升,V12.3 甚至可以做到识别 手势,而近期马斯克在社交媒体上表示,即将推出的版本中 FSD 将会把自动驾驶和 自主泊车结合,实现“真正的代客泊车”,同时将去掉手握方向盘检测,此外在面 临最新场景时也将有更好的表现,如驶入狭窄封闭道路中需要倒车来寻找新的路线 等。

践行规模法则,特斯拉快速推进探索自动驾驶“无人区”。马斯克曾经在财报 会中提到训练模型所需的数据:“100 万个视频 Case 训练,勉强够用;200 万个, 稍好一些;300 万个,就会感到 Wow;到了 1000 万个,就变得难以置信了。”而训 练数据仍需来自于优质的人类驾驶行为。对特斯拉而言,目前有数百万辆量产车辆 可以实现数据收集,同时亦有大量订阅 FSD 的用户可以反馈 FSD 使用过程中的问 题。特斯拉用户带来的 FSD 的累计行驶里程数加速增长,从 2023Q1 的 1.5 亿英里, 提升至 2023Q3 的 5 亿英里,2023Q4 达到接近 8 亿英里,2024 年 4 月突破 10 亿英 里。在 2024 年 4 月马斯克表示到 2024 年在训练算力、海量的数据闭环体系以及海 量视频存储上将特斯拉将累计投入超过 100 亿美元。特斯拉一步步探索自动驾驶的 “无人区”,将规模和能力推升到极致。

2、 端到端助力自驾算法“融会贯通”,大模型时代到来

2.1、 端到端算法将驾驶行为“融会贯通”

端到端自动驾驶算法实现对驾驶行为的“融会贯通”。在传统模块化的自动驾 驶算法中,人类工程师依靠自己的经验将驾驶问题拆解和提炼为一些简单的过程, 通常情况下自动驾驶算法分为感知、预测、规划控制几个部分,以流水线式的架构 进行拼接,模块之间会以人为定义的信息表征方式进行信息传递,进而实现驾驶任 务。端到端算法则采用一个整体化的神经网络,在模型的一端输入感知信息,另一 端直接输出轨迹或者控制信号,将整个驾驶行为“融会贯通”。

2.2、 端到端算法优势显著但落地难度加大

2.2.1、 端到端的自动驾驶算法优势显著:

(1)信息无损传递,减少人为偏见,灵活度大幅提升且泛化性增强

模块化算法以人类定义的抽象结果作为中间产物,如感知模块将外部的汽车、 行人、道路等元素简化为检测框(Bounding box)或者占用栅格以及车道线等;而 预测和规划模块则根据上游感知提供的信息,将复杂的世界抽象为几类简单的场景, 分别输出轨迹点和驾驶路径和行为。这实际上会造成信息损失,当人为定义的抽象 的指标并不能很好的描述场景时,下游模块只能根据有限的信息做判断,造成错误 的结果,体验上来讲会造成模型对复杂场景的处理能力不足,泛化性差,决策僵硬。 端到端算法则可以将各个模块几乎所有信息传递给下游模块,并且由下游模块来决 定使用哪些上一环节的信息。例如当经过侧面有障碍物遮挡的小巷子时,如果人类 司机观察到障碍物后面有汽车发出的灯光,可能会提前减速。模块化的算法由于感 知端只检测障碍物、车道线等内容,可能会丢掉光照变化的信息,规控算法则无法 提前规避侧向来车;而对端到端算法来说,全部传感器感知到的数据都会被收集, 只要有足够的数据,模型会自己学习到灯光和驾驶员行为的关联进而拟人化的处理 相应的问题。

(2)面向整体驾驶目标进行全局优化

在模块化算法中,每个模块都以人类工程师定义的目标进行优化,各个部分分 而治之,可能出现局部最优但整体效果差的情况,如目标检测的指标是平均精度 (mAP),规控算法的检测指标要考虑碰撞率、任务完成率等。端到端自动驾驶则 对整个自动驾驶流程进行优化,神经网络的链式法则可以从输出端(控制)向输入 端(感知)贯通,输出结果可以将误差依次反向传播给所有模块,以最小化整体损失函数为目标,更加准确地更新每个网络层中的参数,以使体验达到最优状态。 (好比考试的时候,答案中 ABCD 的占比是一样的,但如果不通篇看题目,会丢掉 这一重要的全局信息)在特斯拉 FSDV12 版本的视频中,有些时候会出现规控算法 不会完全按照感知呈现的结果执行驾驶行为,或许亦体现了全局优化的优势(规控 会根据自己的经验忽略掉一些感知出现的问题如误检等)。

(3)从“行为”学习“行为”,驾驶变得更加丝滑和拟人化。

这一优势也可以被视为用基于神经网络的算法取代基于规则为主算法带来的优 势。吴新宙在 GTC 大会上提到,在传统自动驾驶开发过程中,工程师希望定义一 些动作,通过建立状态机转换不同的动作来实现驾驶,而为了实现更好的驾驶效果, 会引入越来越多的动作让机器的行为尽量像人。但现实情况中,人类的行为难以通 过一些离散的动作量化,规则无法定义什么是好的驾驶,甚至有些场景下并无最优 决策,好比单纯用文字很难精确的描述一幅画的内容,何小鹏提到无限接近人的自动驾驶系统大概等效于 10 亿条规则,靠人类根本无法达到,因此传统算法产生的 驾驶决策死板单调,拟人性差。端到端或者说基于学习的规划让模型去学习人类行 为,会大幅提升算法的适应性和灵活度,据元戎启行在 GTC 大会上介绍道,元戎 的算法由于使用了端到端技术,不仅实现了舒适、高效,还会考虑后车需求,实现 了“礼貌”,如主动让出右转车道,地面有水会减速慢行等。

(4)数据驱动,发挥规模法则,性能突破上限

采用端到端的自动驾驶算法,可以采用无监督的算法训练方式,省去标注环节, 采用海量数据(维权)对模型进行训练,突破性能上限。而模块化算法则只能依靠工程师来 手动处理长尾场景,随着数据量的增大,效率逐步下降。

(5)精简计算任务,减少级联误差,降低延迟,计算简洁高效

模块化算法中,从传感器收集信息开始就不可避免的出现误差,每个模块产生 的误差如标定误差、定位精度误差、控制误差等会在模块间传递,最终会在下游累 积,导致控制模块收敛难度加大。同时,模块之间的数据传输和计算都需要花费时 间,导致整体算法延时较高,处理紧急场景能力弱。端到端算法则可避免上述情况 出现。此外马斯克亦表示,通过使用端到端自动驾驶算法,特斯拉采用 2000 行代 码代替了原本的 30 万行代码,整体算法框架变得简洁高效。

2.2.2、 端到端的自动驾驶算法亦存在可解释性差、落地难度大等问题

首先由于模型被构建为一个整体,无法像传统自动驾驶任务一样将中间结果进 行分析,因此可解释性较差。其次由于算法完全依靠数据驱动,对数据的质量、数 据分布等要求高,海量数据的获取或生成难度较大。此外仿真验证也是端到端算法 开发的难点,端到端算法更需要闭环评估,而在当前的技术条件下,缺乏良好的工具实现这一过程。最后对自动驾驶公司来说,算法的变化也意味着团队的调整,如 何保持团队稳定性和量产经验的复用亦存在难点。

2.3、 端到端算法形成三大落地形式

多模态基础模型和大语言模型齐头并进,端到端自动驾驶算法百家争鸣。目前 在自动驾驶端到端算法领域,大体形成几大方向:将不同功能的神经网络模块拼接 形成端到端的自动驾驶算法(显式);依靠多模态基础模型实现端到端自动驾驶算 法(隐式);以及依靠多模态大语言模型来实现自动驾驶。

2.3.1、 将多个神经网络拼接形成端到端算法(显式端到端):

显式的端到端自动驾驶即将原有的算法模块以神经网络进行替代并连接形成端 到端算法。该算法包含可见的算法模块,可以输出中间结果,当进行故障回溯时可 以一定程度上进行白盒化调整,训练时首先将每个模块分别训练,再将其拼接进行 联合微调和训练,在数据量有限的情况下更容易收敛,且对于算法团队来说可以最 大限度的继承此前模块化算法的开发能力,同时又具备端到端算法的优势,是目前 诸多量产玩家青睐的方案。获得 2023 年 CVPR 最佳论文奖的 UniAD 模型亦采用此 方法,可明显的观察到算法中仍包含感知、预测、占用预测、规划器等模块,并采 用向量将模块连接,形成灵活的端到端架构。

2.3.2、 多模态基础模型+自动驾驶(隐式端到端):

隐式的端到端算法构建整体化的基础模型,利用海量的传感器接收的外部环境 数据,忽略中间过程,直接监督最终控制信号进行训练。这类模型通常采用视觉或者。多模态的信息作为输入,模型直接输出控制或者轨迹信号。诸多玩家探索的自动 驾驶世界模型在这里也有应用,即将视频、甚至文字信息送入模型,此后模型可以 预测未来发生的事情以及所应该采取的行动,或者可以对所执行操作进行文字解释。 该方案理论上限更高,但训练难度高,收敛困难,对数据需求量大且可解释性差, 模型调整也较为困难,量产玩家如 Wayve 以及学术界做出诸多探索

Wayve 的端到端自动驾驶网络即采用单一的神经网络,直接输入感知数据,输 车辆的驾驶动作,中间没有抽象化的感知结果输出,因此车辆上也不包含通常自动 驾驶具备的“SR”(Situational Awareness,用来呈现自驾算法看到了什么)界面。

学术界百花齐放,世界模型成为玩家探索方向。近年世界模型受到市场关注, 通过将外部环境的信息进行编码,由模型基于这些输入的语料来预测未来世界可能 的状态,再通过不同的解码器解码出不同类型的信息,亦成为开发端到端自动驾驶 算法的一大方式。以极佳科技和清华大学联合推出的 DriveDreamer 为例,模型主要 采用注意力机制和 Diffusion 模型构建。可对驾驶场景实现全面的理解,集成了多模 态的输入数据如文本、视频、高精度地图、3D 检测框、驾驶行为等,可以实现可 控的驾驶视频生成和预测未来的驾驶行为。同时 DriveDreamer 还可以与驾驶场景互 动,根据输入的驾驶动作预测不同的未来驾驶视频。

2.3.3、 大语言模型+自动驾驶: 

大语言模型采用海量的互联网数据进行自监督学习,可以对人类的问题给出优 质反馈。大语言模型凭借其强大的认知能力,越来越多的被应用于驾驶场景。经过 前期的预训练,模型已经吸收了驾驶相关的知识,并且广泛理解世界的“常识”, 通过好的提示词即可激发出其相关的能力。目前大语言模型可以被用于感知、预测、 规划、整个驾驶环节、以及驾驶行为解释上。尤其是大语言模型可以对话的特性, 让驾驶员可以对其做出的操作进行询问,增强模型的可解释性和驾驶的安全感。

目前工业界亦不乏大语言模型实践的先行者。端到端的坚定践行者 Wayve 公司, 在 2023 年推出了 LINGO-1,该模型在各类视觉和语言数据源上进行训练,可以对 感知、规划、推理等任务进行视觉问答,并可以对驾驶行为作出解释。升级版本的 LINGO-1 甚至可以对道路语义信息进行分割。

在学术界大语言模型用作自动驾驶的方案更如雨后春笋。GPT-Driver、 LanguageMPC、Drive like a Human、DriveLM、DriveGPT4 层出不穷。以港大和华 为诺亚实验室等发表的文章中的 DriveGPT4 为例,它是一个使用 LLM 的可解释的 端到端自动驾驶系统,通过将视频、语音提示、控制信号 Token 化之后送入大语言 模型,语言模型生成对人类问题的相应回答以及控制信号,再经过编码等步骤还原 成为文字和控制信息,即可对车辆实现控制。

当然,目前算法仍然存在一些问题如模型幻觉仍难以避免,当给定一个看不见 的场景,LLM 模型仍然会产生无意义或者错误的决策,此外 LLM 在训练的过程中 可能会包含有害的内容。此外大语言模型延迟较高,对计算资源要求较大,不易满 足端侧需求。最后大语言模型对 3D 场景理解度仍然不高,模型是否能够很好的适 用于驾驶场景仍然需要不断验证。

3、 算法、算力、数据全面升级,自动驾驶更进一步

算法、数据、算力全面升级推动自动驾驶迈向更强大水准。正如我们学习驾驶 一样,好的老师、大量的练习以及基础的“脑力”均不可或缺,对自动驾驶而言, 与所有 AI 应用类似,算力、算法、和数据三要素都必不可少。算力层面,规模法 则驱动下,海量的算力成为开发优秀 AI 算法的基础。数据方面,数据的体量、质 量、以及收集方式、处理方式、以及模型的训练和验证体系都考验着开发者的技术 和工程能力。算法层面,如何构建一个性能优异且稳定可靠的算法来支撑功能落地, 亦尤为关键。

3.1、 探求驾驶本质,人类驾驶是“本能反应”和“逻辑思维”的结合

3.1.1、 系统一和系统二,人类思考是快慢系统的结合体

人类思考包含快系统(系统一)和慢系统(系统二)。诺贝尔经济学奖得主, 心理学家 Daniel 在《思考,快与慢》中指出人类的思考有两种方式,“系统一”是 快速的、本能的、自动的、情绪化的、潜意识的、条件反射的;“系统二”是缓慢 的、刻意的、逻辑的、缜密细致的。大脑通常把很多身体运动相关的功能交给“系 统一”来处理,比如一些本能行为,皮肤的烫伤,迎面飞来的物体,需要我们尽可 能快的速度做出反应;而语言等抽象能力被大脑交给了“系统二”的新大脑皮层, 这里可以处理非常复杂的问题,并且有强可塑性。就如我们计算七九六十三,可以 直接给出结果,复杂的方程运算则需要一步步写出来。

人类驾驶是复杂行为,系统一系统二齐上线。回顾人类学习驾驶的过程,既有 对系统二的“训练”如科目一交通法规的学习,也有对系统一的“训练”,如各种 科目二的一些简单操作的“练习”,即使拿到驾照,还需在道路上长时间驾驶才能 够成为经验丰富的驾驶员。在驾驶过程中也通常是系统一和系统二协同行动,当在 熟悉的道路上驾驶时,通常不需要花费太多精力在驾驶行为本身,依靠系统一基本 可以自然而然的快速完成驾驶行为,并且可以分出精力和乘客聊天;而当在不熟悉 的道路上行驶,或者需要赶时间,或者经验不足时,这时系统二会上线,此时我们 集中精力,动用已有的经验(驾驶&非驾驶),对各类场景进行判断,而当无法实时 做出精准的判断的时候可能会降低车速,以留下充足的思考和反应时间。

3.1.2、 世界常识助力解决长尾场景,快慢系统结合为彻底实现自驾提供思路

未来的长尾场景不可避免,数据训练可以学习过去但无法预测未来。预期功能 安全标准将驾驶场景分为四类:已知安全(Known Safe)、已知不安全(Known Unsafe)、未知安全(Unknown Safe)、未知不安全(Unknown Unsafe)。对自动驾驶 而言,当前的思路是基于收集的海量的数据来训练模型,将图 30 中蓝色区域内已 知非安全场景转化为绿色区域内已知安全的场景,尽可能扩大绿色以及蓝色区域的 范围。但实际情况中,白色区域里未知且不安全的事件永远存在,例如并不是所有 的长尾场景都是历史上发生过的,当道路上出现历史上从未发生过的场景,理论上 是没有可能提前被收集并交给模型训练,模型会有非常大的概率无法处理。 对底层物理世界常识的理解助力人类轻松处理长尾场景。首先,正如 Yann Lecun 在《A Path Towards Autonomous Machine Intelligence》中所描述,人类能够快速的学习驾驶,或许是基于人类强大的“世界模型”,即从孩童时期即开始逐步形 成的,驾驶之外对于世界基础常识的理解(在学习驾驶之前我们就知道什么是合理 的,什么是不可能的,什么是危险的,什么是安全的),让我们能够通过快速链接 已有知识而形成对新技能的构建。而当人类面对长尾场景时,对于世界底层规律的 理解,将帮助人类形成强大的推理能力和泛化能力,即使面对没有遇到过的场景人 类也通常知道应该如何更加恰当的处理。

驾驶是车与道路上其他智能体的“交流”,系统一系统二能力结合为彻底实现 自动驾驶提供思路。回到自动驾驶,在有人类驾驶员的情况下,自动驾驶算法只需 处理大部分常见场景,极端的长尾问题可由人类兜底。而要彻底实现无人驾驶,或 许像人类一样,需要同时具备系统一和系统二能力,模型既需要精通驾驶技能并且 能快速反应,同时也需具有世界基础常识,能一定程度理解世界运行的深层次含义, 这样才能良好的察觉对象的意图,在面对复杂的场景时通过推理能力解决问题。因 此在无人的环境下自动驾驶并非难事,而在城市中,驾驶汽车实际上是通过驾驶行 为本身来和其他行人、车辆等“交流”的过程,大语言模型横空出世后其和人类的 交流让人们倍感震撼,而“车”与“车”以及其他道路元素之间的“交流”尽管不 比大语言模型语言交流的天马行空,但其实难度同样不可小觑。未来,系统一能力 和系统二能力结合有望为去掉驾驶员,彻底实现自动驾驶提供解决思路。

3.2、 算法:从渐进到终局,大模型和自动驾驶逐步走上相似道路

算法从规则走向神经网络,从模块化走向端到端。自动驾驶诞生以来,伴随着 神 经 网 络 的 进 化 , 自 动 驾 驶 算 法 也 几 经 迭 代 , 从 传 统 的 视 觉 算 法 转 向 BEV+Transformer,之后不断演进到端到端。总体而言,从基于规则逐步转向基于 神经网络,从小规模、模块化的算法走向基于大规模神经网络,端到端的自动驾驶 算法架构。

端到端大势所趋,发展亦有望经历渐进过程。目前海外特斯拉、Wayve、 Comma.ai,国内包括小鹏、理想、华为、元戎启行、商汤、地平线等诸多玩家都提 出自己的端到端自动驾驶方案,在算法上端到端已经成为大势所趋。但在发展路径 上,行业预计也会经历渐进的过程。早期玩家致力于将算法从模块化架构平稳过渡 到端到端,远期大语言模型和端到端基础模型有望结合形成“系统一”和“系统二” 共同赋能自动驾驶,最终强大的通用人工智能(AGI)或许可(金麒麟分析师)覆盖所有驾驶能力。

3.2.1、 领先量产玩家小步快跑,采用渐进路线面向端到端逐步迭代

领先量产玩家不断迭代,步步为营向端到端迈进。自动驾驶生命攸关,端到端 开发难度大,面对崭新的算法形态,量产玩家大多采取了渐进的策略,先将决策和 规控算法神经网络化,小步快跑逐步为未来的全栈端到端打下基础。华为在 2024 年智能汽车解决方案发布会上推出了 GOD(感知大模型)+PDP(端到端规控大模 型 ) 算 法 , 小 鹏 则 推 动 了 感 知 大 模 型 升 级+和 规 控 大 模 型 上 车 , 形 成 了Xnet+Xbrain+Xplanner 的端到端自动驾驶架构。而即使目前已经表示采用全栈端到 端网络的玩家如元戎启行和商汤,也会辅助以规则化的策略来进行兜底保障安全。 吴新宙曾经提到,端到端将在长期与传统自动驾驶堆栈并行运行,最初端到端模型 将在影子模式下运行,以便在相同的场景下比较人类驾驶、传统堆栈和端到端算法 三者输出的行为差异,并根据人类反馈进行微调;之后端到端可以和传统技术堆栈 并行,两者形成互补;成熟之后则可以逐步淘汰传统堆栈。端到端算法像襁褓里的 天才少年,尽管未来可能成为博士,但成长过程中需要小学、初中老师去带教,这 便是当前传统堆栈起到的作用,随着时间的推移,端到端将最终成长成为强大的可 以独挡一面的“专家”。而在未来 L3 和 L4 系统中,两种系统也可以互为备份提供 冗余。

3.2.2、 数据驱动迈向认知驱动,大语言模型和端到端有望协同助力智驾

更进一步,自动驾驶有望逐步从数据驱动迈向认知驱动。前文提到驾驶或许需 要“系统一”和“系统二”的结合,在自动驾驶中,神经网络天生就像系统一,暴 力计算一个近似的函数来执行;而大语言模型拥有海量参数,并广泛的学习人类世 界知识,具有较强的认知水平,其所具备思维链能力可以通过提示词一步步完成复 杂任务,类似系统二。在未来,大语言模型有望和端到端基础模型结合,形成类似 系统一和系统二的功能共同赋能自动驾驶。理想汽车和清华联合推出的 DriveVLM、 以及英伟达在 GTC 大会上所提到的基础模型都有类似的设想和思考。其中英伟达 自动驾驶汽车研究总监 Marco Pavone 在 GTC 大会上的演讲提到,视觉基础模型和 大语言模型正在成为自动驾驶领域两个尤为重要的基础模型,通过两者的有机结合, 可以让两个方案相互之间扬长避短,在他提到的“并行驾驶”的算法架构中,大语 言模型可以被嵌入其中,作为导航规划器或者监视器来处理复杂场景。在其另一项 研究中自动驾驶算法采用了快-慢推理的流水线,可以看到当遇到带有停止标志 (Stop sign)的广告牌场景时,大语言模型帮助很好的识别了广告牌上的停止标志 (Stop sign),避免了幽灵刹车情况的出现。

理想和清华大学联合推出 DriveVLM,实现大语言模型和端到端模型作为系统 二和系统一结合赋能自驾。2024 年清华大学和理想汽车一道,提到一种基于 DriveVLM-Dual 的思路,意在将端到端模型和大语言模型相结合,使得自动驾驶系 统同时具备系统一和系统二的能力。一方面,将大语言模型用于自动驾驶场景,设 计场景描述、场景分析、层级规划等递进式的思维链,分别对应自动驾驶的感知、 规划和控制,来借助大语言模型的认知能力解决驾驶中的长尾场景。另一方面,将 传统算法的感知规控等环节和大模型得出的结果异步推进,相互验证,避免大语言 模型幻想问题,最终达到好的驾驶效果。测试中发现模型可良好的识别警察挥手等 动作,应对此前无法解决的长尾场景。

3.2.3、 AGI 时代殊途同归智能驾驶终将彻底实现

多个模型殊途同归,通用世界模型或许可彻底实现自动驾驶。本质来讲端到端 自动驾驶模型是精通垂直领域的专业模型,依靠海量汽车收集的三维数据以及驾驶 员驾驶数据,学习到了对空间的理解、驾驶等知识;而大语言模型则汇集全人类所 有的知识,形成强大的通用模型。在遥远的未来,这些模型或许最终都将迈向相同 的终点。近期,马斯克旗下的 X.AI 发布了新的多模态模型 Grok-1.5V,其在理解物 理世界时表现出卓越能力,团队提出了一项新的大模型测试基准——RealworldQA, 该基准可以用于评估多模态模型对世界空间的理解能力,如基于图片中的道路情况 判断自车是否能通过等,经过评估,Grok-1.5V 在该领域能力领先 GPT4V,这让人 不得不联想到海量的特斯拉数据是否在其中起到的至关重要的作用。此外近年随着 具身智能的发展,如何让智能体在与环境的交互中学习世界的通用规律也日益受到 重视,汽车自身包含的诸多传感器,成为天然的多模态数据收集器,这些数据不仅 限于视觉、激光雷达,也包含 IMU 等,能够很好的“体验”到三维世界、加速度、重力等元素,理解环境的变化,并与环境交互。大语言模型不仅能够协助自动驾驶 实现,反过来自动驾驶亦有望成为大语言模型能力提升的重要方式,为 AGI 的实现 增添新的想象空间。

3.3、 数据:虚实结合,世界模型加持下如虎添翼

3.3.1、 端到端推动自动驾驶从算法工程转变为数据工程

端到端时代的来临让数据的重要性空前提升。在传统基于规则的算法时代,工 程师将如何执行驾驶行为凝练成为规则写入自动驾驶算法,当模型出现问题时,修 改或添加新的规则即可完成对问题的修复。而对端到端自动驾驶算法而言,模型只 会通过驾驶的视频片段学习驾驶行为和对环境的理解,因此如何将人类想要让模型 学习到的内容赋予到数据中,并让模型在训练中能够学习这些先验知识难度较高。 因为每个人类驾驶的视频片段其实都包含丰富的驾驶行为,让模型理解到这些视频 片段中的某一种抽象化的先验知识(如左转让直行)并不容易。蔚来汽车任少卿曾 在采访中提到,传统模块化算法需要改变控制策略时,可以找到代码中具体的几行 参数修改,之后测试 1%的案例即可,而端到端的算法中,小的改动需要重新对自 动驾驶算法进行训练,难度可想而知。因此海量的、多样化的、优质的数据不可或 缺,同时自动化、高水平的数据处理体系亦至关重要。据毫末智行首席科学家表示, 数据会占端到端自动驾驶开发中 80%以上研发成本。

重量更重质,海量优质数据将成为自动驾驶行业的稀有品。对端到端算法而言, 数据的需求激增,并且伴随模型体量的增加而扩大;对质量的要求也显著提高,多样性和丰富度不可或缺。以特斯拉为例,马斯克在 2016 年发布《宏图计划第二篇 章》,其中提到可能需要 60 亿英里(约 100 亿公里)的 FSD 行驶里程才能够获得全 球监管机构的批准,2022 年他再次在社交媒体上申明了这一数据。据《马斯克传》 中描述,神经网络至少得进过 100 万个视频片段的训练才能达到良好的工作状态, 而特斯拉到 2023 年初已经分析了从特斯拉客户车辆上收集的 1000 万帧视频画面, 这其中,特斯拉还会挑选出人类优质司机所采取的行为来给模型进行训练。2024 年 5 月,在解决了算力瓶颈之后,马斯克表示更大的难点在于对长尾数据的收集。目 前,通过不断扩大 FSD 功能覆盖的用户数量,截至 2024 年 4 月,特斯拉已经拥有 累计超过 12.5 亿英里(约 20 亿公里)的行驶里程数,并有望在 5 月底超过 20 亿英 里,在年底超过 60 亿英里。观察特斯拉的功能迭代也可以看出,要想达到特斯拉 的自动驾驶水准,海量、多样化、高质量的数据不可或缺。

3.3.2、 海量车队是富矿,源源不断提供丰富数据

海量车队和强有力的数据闭环体系是自动驾驶核心数据来源之一。实车采集的 数据是算法持续迭代的核心资源,海量的车队将保障车企及时获取自己需要的数据 来训练算法,同时也能够收集到足够多样的长尾场景来增强模型的处理能力,这其 中海量的车队保有量以及强有力的数据闭环体系缺一不可。

3.3.3、 仿真算法持续演进,生成式 AI 重要性日益凸显

对数据的旺盛需求,推动生成式 AI 重要性提升。随着自动驾驶走入深水区, 玩家对数据的要求日益提升,厂家希望数据能够包含复杂交通流、具有丰富的场景 以及各类长尾问题、并且具备 3D 标注信息。而现实状态下,数据的采集成本居高 不下,部分危险的场景如车祸等难以采集,长尾场景稀缺,同时 3D 标注的成本高 昂,因此采用合成数据来助力自动驾驶模型训练测试成为颇具前景的发展方向。

Nerf、3DGaussion、视频生成等技术不断迭代,生成式 AI 各显神通助力自驾 仿真。目前,合成数据已经被广泛应用在自动驾驶行业,目前主要形成三大路线: 物理仿真与图形渲染、基于神经辐射场(Nerf、3D Gaussion 等)、和基于世界模型 的路线。其中早年的仿真主要依赖物理仿真模型再叠加游戏引擎等工具进行渲染, 这类方案的问题在于想达到较强的真实感门槛较高,且需要建模大量的高质量资产, 优点在于可编辑性、可控性较强。近年,神经辐射场(Nerf)走上台前,其可以将 2D 图片清晰、逼真的还原为 3D 场景,效果精美吸引了无数人关注,随后 3D 高斯 横空出世,更优的计算效率让其在用户中广泛使用。由于 Nerf 和 3DGaussion 都是 将平面图像进行立体还原,无法“凭空”生成场景,因此多采用三维重建+场景编 辑的方式解决仿真问题,但泛化性仍然有限。而随着 Sora 等模型的诞生,视频生成 未来有望进一步助力自驾行业腾飞。

端到端自动驾驶闭环验证难度大,世界模型有望为解决方案。自动驾驶的评测 分为两类:开环评估和闭环评估,开环评估中自车的输出不会影响评测环境,闭环 评估中环境的变化会受到自车行为的影响,类似“看电影”和“玩游戏”的差异。 传统模块化算法架构,可以单独的评估感知和规控算法的效果。其中,感知环节可 以依靠开环测试直接对比模型输出结果和真实数据或标注数据的一致性,而规控环 节则可依靠某些闭环评测仿真工具如 Carla 等构建虚拟环境评估模型对驾驶场景的 决策处理能力,前者侧重环境的真实性,后者侧重场景和驾驶逻辑的丰富度。而在 端到端模型中,驾驶行为被作为一个整体,难以进行开环评估,同时对虚拟环境的 逼真程度要求高,模型整体的闭环验证成为难点。而近期出现的世界模型可以直接 预测当前驾驶场景的“未来”,或许能够为端到端自动驾驶的闭环验证难题提供解 决方案。

3.4、 算力:云端算力军备竞赛白热化

端到端模型更加依赖规模法则(Scaling Law),新一轮算力军备竞赛在云端展 开。端到端模型与大语言模型高度相似,规模效应明显,海量的数据依赖更高的算 力和存储能力,数据驱动的开发形式也让模型高度依赖算力规模来提升迭代速率。 据地平线余轶南的估计,端到端的初步算力建设门槛或为 1000 块英伟达 A100,即 19.5Pflops 算力,而要想实现极致的自动驾驶功能和性能体验,则需要远高于此的 算力支撑。马斯克曾经在多个场景下表示特斯拉将建设海量算力以支撑其自动驾驶 的雄心,在 2024 年一季度财报电话会上,马斯克表示目前公司投入使用了大约等 效 3.5 万块英伟达 H100 的算力,到 2024 年底公司仅用于训练的 H100 有望达到 8.5 万片,据此前特斯拉的规划,到 2024 年 10 月特斯拉将具备超过 100EFlops 算力, 马斯克亦在社交平台表示截至 2024 年特斯拉将在训练、数据闭环和海量视频存储 上累计投入超过 100 亿美元。国内我们看到领先玩家亦开启了新一轮的云端算力筹 备,集越在 AIDAY 上表示,其当前算力储备已经达到 2.2EFLOPS,30PB 数据缓存, 华为则在其智能车产品发布会上表示,到 2024 年 6 月其算力将达到 3.5EFlops,每 5 天迭代一次。而商汤大装置已经布局全国一体化的智算网络,总体算力达到 12000PFLOPS,能够有效支持其大模型、自动驾驶等算法的使用,小鹏汽车则在其 520AI DAY 上表示将加大在算力端投入。

4、 国内玩家齐发力,自动驾驶未来已来

4.1、 华为:GOD 感知网络+PDP 预决策规划网络推进端到端

通过 GOD 感知网络+PDP 预决策规划网络推进端到端算法。华为在 2024 年的 智能汽车解决方案发布会上首发 ADS3.0 系统,形成了以 GOD 网络核心的感知模块, 以及以 PDP 网络为核心的预决策规控网络,先将两大算法神经网络化,进而向端到端自动驾驶迈进。感知端:ADS1.0 是基于 BEV 的白名单目标和道路结构感知, ADS2.0 在 BEV 基础上增加 GOD 网络实现异形障碍物的感知,ADS3.0 去掉 BEV, 只保留 GOD,在白名单障碍物、异形障碍物识别、道路结构感知的基础上增加对 场景的理解,包括红绿灯、车流信息等。华为采用融合传感,对激光雷达进行进一 步升级,提升全天候能力以应对恶劣天气,同时提升小目标和小物体的检测能力, 激光雷达持续升级 2025 年有望推出 D5 产品。同时发布 4D 毫米波雷达,支持 280 米测远,成像精度从 20cm 提升到 5cm,时延降低。规控端:在预测决策规控端采 用整体化的神经网络,使得决策更准确,行为更类人,通行更高效。

通用障碍物感知网络,端到端的前哨。华为在 ADS 2.0 发布了 GOD(General Obstacle Detecttion, 通用障碍物感知)网络。前端用不同的骨干网络来提取外部环 境的特征,这些特征被送入时空神经网络,来构建一个外部世界的 3D 表达形式, 这是完成多模态感知的关键,网络可以输出占用栅格、光流预测、危险区域预测甚 至可以输出规划结果,同时网络中也包含有丰富的语义信息。这样的网络可以感知 静态和动态的障碍物,也可以预测道路的 3D 结构,进而帮助车身控制以及 ARHUD 显式,由于网络中包含了驾驶所需要的所有信息,因此它也可以预测车辆 的危险行驶轨迹,甚至可以做端到端的规划。

算力和数据持续进化坐稳本土领军。依托华为云的能力,到 2024 年 6 月,华 为在自动驾驶领域算力将提升至 3.5EFlops,每天训练的数据量超过 3000 万公里, 模型更新速度每 5 天一次。到 2024 年底,累计采用华为智驾在路上行驶的车辆将 超过 50 万辆。整体而言华为基于其强大的全产业链布局能力,自底向上,形成了 以数学、物理等基础研究为根基,基础算法、操作系统、各类应用及软硬件的强大 体系,未来有望在自动驾驶领域持续引领行业。

4.2、 元戎启行:领先算法玩家有望率先落地端到端自动驾驶

端到端先行者,有望快速落地量产。元戎启行是国内端到端自动驾驶的先行者, 在 2023 年 8 月即开启端到端模型的道路测试,预计 2024 年将有多款搭载端到端模型的量产车型上市。元戎认为,系统是否能够在复杂路段流畅行驶、全场景理解能 力及类人化决策、兜底策略是否可靠、天花板等几个方面是端到端的关键,目前元 戎可以满足所有上述要求。创始人周光认为,端到端模型拥有极高的上限,同时在 初期上车的阶段,还有很多安全兜底策略,例如测试到碰撞可能发生,会启动安全 模型让车采取保守的安全策略,随着模型表现越来越好,兜底规则会越来越简化。

4.3、 小鹏:自驾领先新势力,发布端到端方案

小鹏汽车采用 Xnet、Xbrain、Xplanner 配合协同,共同推动端到端算法上车。 小鹏汽车在 2024 年 5 月 20 日的发布会上介绍了其技术领域的最新进展,何小鹏在 在发布会上提到,较为稳定的传统量产智驾系统,大约有 10 万条左右各类人工定 义的规则,而一个无限接近人类司机的自动驾驶系统,大概等效于 10 亿条规则,这对于需要快速更新迭代的自动驾驶系统来说是难以承担的。而端到端算法通过让 机器学习海量的人类驾驶视频片段,可以把数以百万计的人类驾驶方式放到具有海 量参数的自动驾驶模型中。具体而言,小鹏的算法将感知、策略和规控统一在相同 的 Transformer 架构下,保证模型有足够解释性的前提下,提升算法的一体化程度。 在感知端,采用升级后的 Xnet,类似人的眼睛,感知范围提升,识别目标类型增加; 规控端采用 Xbrain 类似人的大脑,可以识别车辆意图,对待转区、特殊车道、后期 甚至可以读取文字信息进而进一步增强对场景的理解;而 XPlanner 则起到小脑的作 用,在控制环节让车辆变得更像老司机,减少前后顿挫、减少违停卡死等弊端。

目前小鹏的端到端大模型可以实现 2 天迭代一次,智驾能力 18 个月提升 30 倍, 视频训练超过 10 亿公里,每天新增里程超过 9.78 万公里,实车测试超过 646 万公 里,仿真测试里程累计达到 2.16 亿公里,核心模拟场景超过 2.2 万,专业模拟场景 超过 5.8 万。

4.4、 蔚来:推动功能落地,端到端算法在路上

感知和规控合并,端到端方案即将发布。蔚来的端到端智驾方案将是感知和规 控合并,实现信息无损传递。2023 年年中蔚来开始探索世界模型,目前已经有阶段性成果,端到端方案也将在年内发布。 厚积薄发,构建完备自动驾驶体系。借助云端和车端的算力,搭建超级 AI, 通过不同的闭环体系做相应的数据处理和分布式训练,在这样的平台基础上构建算 法能力,包含感知、地图行为、环境信息识别、人机共驾、规控等模块,最终汇聚 成两大功能:全域领航辅助和安全,这也契合蔚来自动驾驶的愿景——解放时间, 减少事故。

蔚来在自动驾驶算法中的感知和规控环节都采用了神经网络赋能。在感知端采 用融合化的感知网络,占用网络 2.0 通过一个网络识别动静态物体,并采用可变分 辨率的架构解决远近物体识别的问题,同时在云端训练一个大模型进行无监督的训 练,辅助车端模型进行感知。在规控端,引入了数据驱动的分层价值网络,通过分 层搜索的形式,找到最优解。具体而言,通过多模态的注意力网络从感知数据中筛 选出 10-100 种未来的可能性,之后将这些可能性进行更进一步的推演,通过交互搜 索的树,做 7 秒钟的推演,通过经人类偏好数据训练的博弈价值网络来进行推演, 在具体的行为规划和控制过程,采用奖励函数网络给出一个最舒适、拟人化的结果。 最后将结果送入凸优化的空间进行兜底,保证输出的结果安全。

截至 2024 年 3 月 31 日,蔚来的城区智驾用户规模达到 22.89 万人,截至 4 月 19 日,蔚来用户累计智驾里程达到 8.99 亿公里,截至 4 月 20 日开通 84 万公里的城 区道路。

4.5、 地平线:本土自驾芯片领军,推动软硬一体化方案落地

地平线推动自驾从可用到好用到爱用。地平线在发布会上深入阐述了对智驾阶 段的思考,1.0 阶段是技术跑通,保障车辆的物理安全,2.0 则是更加拟人化,系统 行为要符合用户的心理预期,且满足社会惯例,为用户提供心理安全,安全感,即 好用,最后智驾 3.0 阶段随着用户教育提升达到每程、每刻、每人都用的阶段。

感知和规控分别采用神经网络构筑拟人化的自动驾驶解决方案。感知端地平线 采用了基于 Transformer 的端到端感知网路,将动/静态障碍物感知和占用网络融合, 实现更强的检测能力和准确的长尾物体感知能力,以及对鬼探头等场景的识别能力, 同时代码行数降低,效率有效提升。在规控端,采用了交互式预决策模型,将自车 的决策放入模型,进行反复推演,进而实现更好的他车、自车意图的推理,使得系 统做出的行为更加拟人化,最终送入传统的运动规划器做安全兜底,实现信号输出。

4.6、 商汤绝影:AI 先行者,推动算法走向极致

商汤绝影推动“真”端到端上车落地。2022 年末,商汤绝影提出了行业首个感 知决策一体化自动驾驶通用模型 UniAD,次年,这篇论文获得了计算机顶会 CVPR 2023 年的最佳论文。2024 年,经过团队的不懈努力,升级后 UniAD 已经可以在车 端部署,作为“真”端到端的模型,UniAD 将感知、决策、规划等模块整合到一个 全栈的 Transformer 端到端模型,实现感知决策一体化,表现出更高的性能上限, 同时由于团队在模型的可控性等方面加入了更多的优化,模型的安全性也大大提升。 这样的端到端模型拥有更强的泛化能力,迭代效率更快,可低成本快速的为车企自 动驾驶赋能。从公布的视频来看,算法可以良好应对大角度左转上桥、避让占道车 辆、施工区域、无保护左转等场景,做到“像人一样开车”。

探索大语言模型和自动驾驶结合,探索完全无人驾驶技术路径。在端到端系统 基础上,商汤绝影还在推出了新一代自动驾驶大模型 DriveAGI,将大语言模型和自 动驾驶融为一体。通过适当的自然语言提示,模型可以实现,对当前场景状态进行 表述,并给出所应当执行的行为,或作为更高阶的决策模块去驱动底层的控制模型 去操控车辆作出具体行为。由于大语言模型具有强大的开放世界理解能力,因此模 型可以良好的处理各类复杂场景,如在十字路口有交通引协管员引导小朋友过马路, 即使前方是绿灯,模型也能够清晰理解到当前场景的状态。此外模型也可以实现场 景生成功能,通过控制信号和环境表述可以控制未来生成未来的视频以及生成新的 训练数据,赋能自动驾驶的仿真。DriveAGI 拥有贴近人类的思维方式,能够理解人 类意图并能够解决驾驶困难场景,向着完全无人驾驶迈出重要一步。

目前商汤已经拥有 12000P 的算力储备,到 2024 年底算力规模将达到 16000P, 作为国内 AI 领域的领军玩家,商汤原生自研了包含大语言模型、多模态模型、文 生图、文生视频等诸多产品,具有自底层到上层的大模型构建能力,对人工智能的 理解和应用以及组织架构和人才储备都具有较深的积累,未来有望在大模型时代厚积薄发。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 08-05 珂玛科技 301611 --
  • 08-05 巍华新材 603310 --
  • 07-26 龙图光罩 688721 18.5
  • 07-23 博实结 301608 44.5
  • 07-22 力聚热能 603391 40
  • 新浪首页 语音播报 相关新闻 返回顶部