一直以来,走全栈自研路线的新势力夺取了智驾的大部分声量,但现在格局已有所松动。
“蔚小理华”之外,智己也开始越来越频繁地在智驾测评榜单中出现。
今年9月,智己正式交付了全国都能开的无图NOA,成为第四家达成这一里程碑的车企。一个月后,智己又正式推出了基于“一段式端到端大模型”的IM AD 3.0。
与这些玩家不同,智己的IM AD智驾系统是与Momenta联合开发。一直以来,头部车企对于采用供应商智驾方案的行为讳莫如深,即使是非自研也必须被包装成全栈自研。但是智己和Momenta一直公开为对方站台。
智己,是Momenta能够在智驾行业扎稳脚根的关键一步。Momenta CEO曹旭东如此形容两家之间的关系:“虽然是两个公司,但胜似一个团队。”
曹旭东表示,智驾的摩尔定律是两年10倍,但智己与Momenta追求的目标要远高于此,可能是两年100倍甚至更高,实现这个目标,需要两边都具有高效的迭代效率,数据闭环效率的提升要从以月为单位加速到以周为单位、以一天为单位。
“放到任何一家公司内部,能够达到这样效率的团队在行业内都是凤毛麟角。”
通过联合Momenta,智己宣布将在年内获得L4级无驾驶人道路测试牌照,成为全国首个同时具备L2+、L3、L4智能驾驶量产能力的汽车品牌。
都在讲端到端,智己与Momenta的有何不同?
IM AD 3.0的关键词是“直觉”,这出自于行业里正在流行的“快慢系统”理论——人类大脑95%的决策都依赖于快系统,即直觉与条件反射,端到端智驾大模型则通过减少人为定义的规则以复刻人类大脑的快系统。
一段式端到端大模型,是目前复刻人类大脑快系统最极致的阶段,通过把感知和规划两个模型整合成一个大模型,传感器原始数据输入后直接就输出规划路径,模拟人类的快速直觉反应。
它的优势在于,无需人为定义从感知到规划的接口,能学习全局信息与隐含信息,就算面对看不清的道路结构与情况,也能综合分析车流、行人的轨迹等全局隐含信息,基于全局信息输出行驶轨迹,通过理解环境做到边看边开的老司机驾驶行为。
以路上的水坑为例,在过去的分段式模型中,水坑场景是比较难解决的Corner Case之一。首先需要人为定义水坑的类型,并用大量数据训练感知模型以认知水坑,而在规划模型中,也同样需要大量躲避水坑的驾驶数据来训练学习。
一段式端到端大模型去除了人为定义水坑的步骤,即使对水坑没有显性定义,也可以通过学习隐含的认知绕过水坑。由此可见,一段式端到端大模型的泛化能力更强、上限也更高。
同时为了保证下限,IM AD 3.0加入了“安全逻辑网络”进行兜底,负责对一段式端到端大模型生成的多模态候选轨迹做最终判断,以确保直觉性决策的安全性。
端到端成为现实后,并非迎来了技术的终局,而是一个新的开始,算力与数据是未来竞争的核心。
特斯拉以雄厚的财力与数据优势已经占据竞争的高点,马斯克曾表示,今年特斯拉投入到自动驾驶的训练与推理的花费将超过100亿美金。
自动驾驶端到端大模型的训练试错成本非常高昂,如何降低试错成本是关键。
智己与Momenta提出了长、短期记忆结合的模式。这一模式仿照了人类记忆的形成过程,人在探索外界世界时,外界的信息数据首先进入短期记忆,经过短期记忆的筛选验证后,才会进入长期记忆习得能力与经验。
长期记忆是一段式端到端大模型,短期记忆是DLP模型。后者是一个小版本,主要用于验证方法以及训练数据是否正确,实现算法的快速迭代,做到平均一天迭代一个版本。被短期记忆验证过的方法与数据,在积累一段时间以后,会应用到一段式端到端大模型上,基本保证一次训练就能训练得对、训练得好,从而降低试错成本。
“长短期记忆结合的模式是我们的一个秘密武器。”曹旭东介绍,这种模式比直接完全用端到端大模型去试错,能减少10~100倍的训练成本。
另外在数据层面,曹旭东提到,目前Momenta已经实现了百分百的数据驱动与算法自动化迭代,拥有亿级优势数据的积累。到2027年,Momenta的数据积累预计突破1000亿公里,彻底解决自动驾驶的终极长尾问题。
追赶与超越:供应商合作模式的范本
智己与Momenta能够在此时追赶上业内的端到端热潮,离不开最初的路线选择。
早期的Momenta曾是“异类”,当同行们都在沿着Rule-based方法做智能驾驶,Momenta从一开始就坚决押注数据驱动。
智驾技术路线向端到端收拢,须经历三个阶段,首先是感知的模型化,接着是规控的模型化,再下一步则是感知与规控的合二为一。
感知的模型化是业内共识,但是在规控的模型化上出现了分歧,基于传统的Rule-based方法,只要投入的人力够多,就以较快的速度取得不错的规控效果。
不过,Rule-based始终受限于人力以及无法穷尽的Corner Case难题,当智驾开进城区里,依靠Rule-based根本不可能大范围开城。2020年,当各家都还困于高速NOA的开发量产时,Momenta就开始将数据驱动引入规控环节,试图代替Rule-based。
曹旭东回忆,当时行业里很多人都不认同这种做法,“这放到当时是有理由的,那时候用Deep Learning做Planning,在一些场景会有惊艳的表现,但是也会在很多场景里出现匪夷所思的问题。”
因此,规控的模型化其实是迈向端到端的一道高门槛,首先需要具备发现问题的能力,还要有分析、跟进并且解决问题的能力,这背后需要一整套研发体系的支撑。
Momenta与智己一同打磨了两年多时间,到2023年4月,两家才把数据驱动的规控做到量产,应用在高速NOA上。
当时,智己和Momenta召开了一场发布会,发布了命名为DLP的规控模型,但彼时业内对此并无太多认知。
“我们用Deep Learning做planning,比特斯拉还要更早,特斯拉今年上半年才上了端到端,Planning变成深度学习。”曹旭东说。
到了今年,在感知与规控都已实现数据驱动的基础上,再加上背后持续进步的研发体系支撑,智己与Momenta将感知模型与规控模型合并成了一段式端到端大模型。
实际上,从正式开始推送高速NOA,到完成一段式端到端大模型的切换,智己与Momenta仅用了一年半的时间。
这一年半,智己与Momenta实现了从高速到城区,从高精地图到轻图,从Rule-based到端到端的切换。
在这些进展背后,是曹旭东所说的“胜似一个团队”。
两方的合作始于2020年末,也曾经历过磨合期,从现在的结果看来,彼此互有成就。这4年时间,Momenta从智己那里积累了从0到1的工程化经验,得到了打磨产品与研发体系的机会,智己也凭借Momenta的技术能力得到了竞争智驾第一梯队的入场券。
“从Momenta同学的角度来讲,他不是在为一个某个客户工作,我们也不会说,Momenta是我们的供应商,就用怎么卡供应商、怎么控制供应商的思维模式去工作。”
智己智驾项目总监王康表示,现在IM AD智驾系统的开发与迭代都是两个团队一起去发现问题与解决问题,任何一个OTA的版本,都是双方共同规划与讨论出来的结果,每周的设计变更也都是两个团队一起评估与验证。
在供应商模式下,留给智己的考验是,如何做出好的产品定义与产品特色。
跨域融合,是智己的一个突破方向。去年智己LS6上市时,智己就已推出了基于舱驾融合打造的全域数字视野补盲功能以及“雨夜模式”。
今年,基于灵蜥数字底盘,智己将智驾域与底盘域进行联通与融合,以“云台车身控制”功能为例,依托智驾系统对环境的精准感知,能够识别大曲率的弯道,对底盘进行智能调整,提升驾乘的舒适度与平稳度。
另一方面,灵蜥数字底盘也赋能了智驾,四轮转向功能带来更小的转弯半径,智驾在调头场景下更轻松,减少智驾体验中断的概率。
在智己看来,灵蜥数字底盘是智能驾驶非常合适的载体。“智驾体验是否让用户感到舒适,有没有顿挫,都要有好的底盘来做‘手、脚、眼、脑’的协调工作,只有做到这样,才能算是真正好用的智能驾驶。”智己智驾中心总监贺锦鹏表示。
由智己官方提供的实时数据显示,IM AD智驾系统的用户黏性持续有所提升,前一周智己用户在日常出行当中使用IM AD的比例为81.4%,而在过去一周中使用IM AD的用户比例已达到95.65%。
去年开始,智己明确了以智能车为品牌的卖点,如今智驾已经追赶上来,智己剩下要做的事情是如何把车卖好。
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)