见谈 | 商汤绝影王晓刚:越过山丘,我如何冲刺智驾高地?

见谈 | 商汤绝影王晓刚:越过山丘,我如何冲刺智驾高地?
2025年05月20日 20:25 21世纪经济报道

商汤绝影想要翻越汽车产业这座高山,让AI的价值再被验证一次。

21世纪经济报道记者 焦文娟 上海、广州报道

科技创新在于灵光乍现的一刻。在端到端领域,商汤绝影CEO王晓刚是最先发现机会的那批人。

《21汽车·一见Auto》发现,2017年,王晓刚在参与的一篇论文中*最先提到“端到端”。彼时,他想解决计算机视觉在处理不同语义层次任务中的孤立性问题,受人类视觉系统处理信息方式的启发,他们便提出了一种端到端的多级场景描述网络(MSDN)。

简而言之,在计算机视觉处理时,王晓刚提出通过端到端架构去减少中间模块传递时的误差。

他们甚至试图将端到端运用到实践之中,这个时间点比特斯拉早了近6年。

2017年,本田找到商汤科技团队,合作L4自动驾驶项目。“本田给出的要求就是纯视觉、没有高精度地图,根据图像直接去规划行驶轨迹”,王晓刚说,“跟今天端到端自动驾驶的要求一样。”但受限于当时的网络结构、硬件算力、云端算力等客观条件,量产并未能落地。

技术落地需要天时、地利、人和。“我们第一个提出来端到端自动驾驶的方案,但是大家都不信,也不知道怎么用,行业认知还没有到达一定程度。”王晓刚回忆。

那几年,自动驾驶行业也处于混沌期。车企和自动驾驶公司在纯视觉和激光雷达路线间摇摆,关于未来智驾的进化路线,行业内并没有统一认知。

因此,在商汤绝影一脚踏入汽车业后,最先做大最强的业务是智能座舱业务。2021年7月,商汤科技发布智能汽车解决方案独立新品牌SenseAuto绝影,正式踏入汽车业,王晓刚成为商汤绝影负责人。

依托商汤科技积累的视觉感知技术,在智能座舱领域,商汤科技在2018年推出了自己的座舱产品:SenseDrive DMS驾驶员监控系统。2018年至2019年,除了落地合作的威马外,商汤还拿下了与安波福、伟世通、蔚来、广汽等国际Tier 1供应商和超过10家主机厂的智能座舱合作订单,但同期智驾领域没有公布合作车企的数量。

早期在智驾领域,除了与本田合作L4自动驾驶以外, 2019年,商汤才开始推出自己可量产的ADAS方案。

直到2021年上海车展上,商汤绝影推出了SenseAuto Pilot-P驾驶领航方案,能够实现L2+级高级辅助驾驶功能。

2022年底,商汤在论文中提出了一段式端到端,但不管是从现实环境还是当时的技术量产能力来看,整个行业在当时并不具备将一段式端到端技术落地的能力。

图为 2022年商汤科技发表的论文《Planning-oriented Autonomous Driving》中提出的智驾系统模型,并于2023年获得CVPR最佳论文奖

特斯拉的出现,改变了这一切。

《马斯克传》提到,2022年12月,受 ChatGPT 启发后,马斯克在特斯拉设立neural network planner项目,想要达到“特斯拉ChatGPT时刻”。次年11月,特斯拉就推送了FSD V12,成为最早落地量产“端到端自动驾驶”大模型的车企,也掀起了车圈“端到端”上车风潮。

2024年,小鹏、理想等新势力的端到端方案已经上车,智驾方案商Momenta已经实现一段式端到端,华为也在攻入一段式端到端方案。

2024年北京车展,商汤绝影亮相了UniAD一段式端到端的实车部署;到11月,商汤绝影发布了三套全场景智驾的量产方案AD Pro、AD Max、AD Ultra,其中AD Ultra就是绝影UniAD一段式端到端量产方案。今年年底,商汤绝影与东风汽车联合开发的端到端自动驾驶系统将量产落地。

最先发现端到端机会的商汤绝影,似乎晚了一些。

“人工智能公司擅长从0到1,因为聚集了一批非常优秀的工程师,但都很贵。而1到N的量产,对于商汤绝影是一大考验”,王晓刚认为,这需要把运营成本降低到和对手一样的水平,或将效率提升到对方的三四倍。

为了补上“量产课”,王晓刚开始从人才引进和产品平台化两方面发力。

“新招来的人才来自行业里的主机厂或供应商,拥有成熟的经验。”王晓刚说,“现在要规模化发展,每个环节便需要有擅长的人,需要大家协同作战,就像特种部队后面还有大部队。”

平台化方面,为了应对不同硬件平台与底层软件的适配难题,实现跨项目的经验共享,商汤绝影开发了一套工具链,包括中间件适配层和统一模型部署系统,前者可以屏蔽不同中间件和底层软件的差异,后者支持多种芯片平台的开发。

在此过程中,王晓刚一直在探索如何从高校教授转型成为管理者。

商汤科技的企业文化和后来的团队领导实践都给他带来了很多影响。商汤内部倡导“黑羊文化”,这是创始人汤晓鸥提出来的企业理念,它与“狼性文化”迥异,主张企业应像“黑羊”一样兼具特立独行的创新精神和同理心,既追求突破性发展,又注重团队协作与人性化管理。

进入汽车行业后,“黑羊文化”继续进化,在与车企合作中,王晓刚追求黑白交融的“太极模式”,即成就客户自研团队的同时,将对方转化为生态伙伴。

以合作方式为例,其他智驾供应商多选择交付黑盒,这也被供应商们视为保护自有底层代码和软件核心竞争力的方式之一,但商汤绝影却采用的是更加开放的白盒交付模式。

在白盒交付的基础上,商汤绝影还会把整套工具链、研发平台、数据平台,数据管线、数据格式、超算中心等都会与车企一起共用、共享。“我们要为主机厂改造研发体系。”王晓刚说。

“这不是因为我们无私。端到端自动驾驶是由模型驱动,车企得确保模型是安全的。而模型又是由数据产生,这需要车企能掌控数据源头,对整条数据传输的链路能进行回溯、确保安全。”王晓刚说。

量产的重要性提升,他向《21汽车·一见Auto》描述了自己的蜕变:以前,论文投稿是他眼中的“春晚”,现在,客户发布会是他的“春晚”。

但在商汤,员工们还是喜欢喊他“王老师”,在他的管理风格中,还能识别出一些教师的烙印,比如低调内敛、亲力亲为。王晓刚喜欢常驻一线,和工程师拿着白板一条条解决问题,这样效率更高,有时候还会有灵感迸发。

在王晓刚看来,补上汽车行业的必修课后,商汤绝影还有机会。

他认为,今年市场上更大的机会在于中低端市场。这也是商汤绝影智驾战略重点落地的方向。2025年,商汤绝影进一步扩大交付范围,新增合作车企包括广汽埃安、一汽红旗等,并计划基于英伟达Thor平台开发更高阶的端到端方案。

同时,商汤绝影今年年底即将量产的智驾系统还叠加了多模态大模型DriveAGI,加入了与世界模型的交互。在世界模型的加持下,王晓刚认为,商汤绝影的智驾技术方案“能够超过人类的水平,且有更多安全的确定性”。

除了智舱、智驾业务外,商汤绝影还有更长远的生意。他们更大的业务盘在于云端服务,即利用自己的AI基因,给企业搭建数据回流管道,进行AI基础设施建设。

“就大趋势而言,(软件供应商们的)核心壁垒并不在算法本身,我们更多地要看重AI基础设施建设,而且技术还在不停地演进。”王晓刚说。

与智能汽车解决方案供应商华为、智驾供应商Momenta们的不同在于,王晓刚对商汤绝影的定位是一家汽车领域的AI平台型公司。用王晓刚的话来讲,只要AI不断演进,绝影对主机厂就是有价值的。

从高校实验室再到“全球AI领域最大IPO”,商汤科技开盘首日市值曾超过1400亿港元,是AI四小龙之一的“云从科技”的上市首日市值的七倍左右。

为了攀上AI高峰,商汤科技花了七年。如今,商汤绝影想要翻越汽车产业这座高山,让AI的价值再被验证一次。

以下是《21汽车·一见Auto》与商汤绝影CEO王晓刚的对话,经摘编:

从教授到CEO的管理哲学

《21汽车·一见Auto》:你之前在香港中文大学当教授,后来在商汤科技当管理者,现在也是商汤绝影的CEO,从学者转型到管理者的难度不小,你当时为什么做这个决定?

王晓刚:其实从学术研究到产业界、工业界,我主要受汤(晓鸥)老师的影响。

我是2001年到香港中文大学做他的学生,攻读信息工程硕士,因为那个时候汤老师也在微软亚洲研究院工作了一段时间,他已经想去创业。

无论是在微软还是香港中文大学,他都已经看到这些好的技术有潜力去造福人类社会,想把人工智能产业化。

《21汽车·一见Auto》:那时候你们在攻坚什么技术?

王晓刚:2014年,我们和 Facebook 打了一个PK,当时Facebook想做一个突破性的技术进展,让机器的识别率超过肉眼的识别率,最后我们的模型对人脸的识别率率先超过肉眼的识别。

当时,我们还与谷歌和微软在视觉领域竞争,在 ImageNet 视觉挑战赛中进行识别和检测技术比拼,我们还拿到了冠军。

《21汽车·一见Auto》:这在当时是怎样的水平?

王晓刚:当时业内有一个知名学者还特地写了一封信,那时我们还只是一个小型实验室,这位学者打了个比方,他说,《圣经》里有个故事,巨人名叫歌利亚,而小人大卫用投石器击败了他。当时他说,我们这么小的实验室,就像大卫一样,与行业巨头Facebook、谷歌等展开竞争,并且取得了胜利,这是一件了不起的事。

但回想起来,这一切实属不易。因为当时没有人知道人工智能是否能够超越人类。而当我们最终实现了这一点时,我们看到了巨大的产业价值。汤老师的信念实际上也彻底改变了包括我在内很多人的命运。

《21汽车·一见Auto》:2016年你加入商汤科技成为联合创始人,你是如何蜕变成管理者的?

王晓刚:当时七月底接到一通电话,我第二天就马上到岗了,当时说我只需要在技术上给一些指导。但其实后来发现完全不是这么回事,在这个过程中,就不存在单纯的管理者,或者是单纯的技术人员。后来其实是我自己发现怎么去管理,我也是上了很多课。

《21汽车·一见Auto》:你补了什么比较关键的“管理课”?

王晓刚:我摸索出来发现最大的就是信任,其实你的团队和你之间,最本质的管理就是要建立起信任关系,你要帮他在最困难的时候去解决问题。我觉得管理者最本质的就是这两个字。

《21汽车·一见Auto》:2022年你接棒汽车后,跟你之前做过的手机,智慧城市等业务相比,你觉得最大的区别是什么?

王晓刚:进入汽车行业其实很难,因为汽车生产周期长,对品质和安全的要求极高,这对公司团队的信誉和质量把控是极大的考验。跟其他行业不同,比如手机或互联网行业,产品迭代可能以月为单位,但汽车行业以年为单位,售后也更复杂。而且自动驾驶涉及整个产业链,需要各方在软件硬件上协同合作,建立信任。

“小爱同学”们背后的大佬

《21汽车·一见Auto》:你们在汽车领域有智能座舱、智能驾驶和AI云三大业务,最早量产的汽车业务是什么?

王晓刚:最早是在座舱领域。

《21汽车·一见Auto》:你们的客户列表中也有小米,你们是怎么和小米开始合作的?

王晓刚:我们主要提供小爱同学背后的大模型。后来小米SU7上市后,座舱的小爱同学也是我们支持的。

《21汽车·一见Auto》:加入你们的大模型后,小爱同学有什么提升?

王晓刚:最早在大模型出现之前,小爱同学的功能主要是执行指令型任务,用户让它干什么它就干什么。大模型诞生后,我们为小爱同学赋予了更复杂问答的能力,包括与搜索功能相结合,这对智能化要求还是比较高的。

今天我们又不断推出了更多的功能,比如多模态功能。早期的大模型主要侧重于属于被动响应,你问他什么问题他来进行回答。一旦有了多模态,他就可以察言观色,可以主动发起对话,这实际上是对人际交互的比较重要的改变。

《21汽车·一见Auto》:蔚来他们有自己的座舱团队,为什么找你们合作?

王晓刚:在座舱领域,我们和蔚来的合作一直比较久,从最早的DMS(驾驶员监测系统)、OMS(车舱感知系统)开始。蔚来对产品的品质要求非常高,对产品的应用设计也有自己非常独到的办法,能够把我们的技术优势发挥出来。

我开始做DMS、OMS其实有很多Corner Case是解决不掉的,那现在也是在我们的客户的要求下,封闭开发,不断地去提升品质。

《21汽车·一见Auto》:当时李斌给了你什么建议?

王晓刚:2020年时,他对视线跟踪(Gaze Tracking)这些技术要求非常高,因为这个技术能够实现与Nomi的互动。现在已经不光能实现与机器人的互动,还有与你关注的大屏互动。他在这块会提出非常高的要求。今年我们不断迭代之后,就有了这种3d gaze。

《21汽车·一见Auto》:你们给蔚来的座舱开发了什么功能?

王晓刚:我们给蔚来乐道的全座舱配备了人脸识别技术,看上去简单,其实产品体验还是有很大提升。原来每次都是用户自己来呼唤Nomi的名字,现在Nomi可以叫你的名字,我们跟车的距离就拉近了。

端到端不是终极方案

《21汽车·一见Auto》:你们早期做过DMS业务,这对后来做智驾业务有没有帮助?实际上差异有多大?

王晓刚:在智驾领域,技术要求更为复杂。我们在为客户提供智驾交付服务的过程中发现,不仅技术更加全面,质量要求也要不断提升。同时,还要配备一系列工具链,来提高研发迭代的效率。后台数据的生产效率和质量同样面临高标准的要求。在这个过程中,我们不断成长与进步。

《21汽车·一见Auto》:今年你们提出了做世界模型,但是主机厂们都还在追逐端到端,你怎么看?

王晓刚:以前大家都认为端到端可能是终极方案,但今天来看端到端路线也有它的问题,如今又有世界模型、强化学习等新技术出来。

《21汽车·一见Auto》:之前你曾提过,绝影是第一个先发现端到端大模型的,但为什么在行业内似乎并没有很多知名度?

王晓刚:2017年开始,我们跟本田合作了自动驾驶项目。本田当时的要求就是纯视觉、没有高精度地图,根据图像直接去规划行驶轨迹,跟今天端到端自动驾驶的要求一样。但那时候,网络结构、硬件算力、云端算力都很弱,不具备这个量产条件。

到了2022年,条件具备了。我们第一个提出来端到端自动驾驶的方案,当时也在给车企推广大模型,但是大家都不信,也不知道怎么用。

2022年底的时候,ChatGPT出现了,大家才开始相信大模型。

原来的声量小,不是因为我们做的宣传不够,是因为整个市场还没有相信这个东西能成,行业认知还没有到达一定程度。

《21汽车·一见Auto》:当时这个合作有推进下去吗?

王晓刚:我们做了五年。2022年才交付出去。但是本田一直没有做量产的落地,项目只停留在了前端研发阶段。

《21汽车·一见Auto》:过往的端到端路线存在什么问题?

王晓刚:我举个例子,当时我们最早在2022年就提到了端到端,像ChatGPT这种方案本质上也是端到端,输入数据直接输出结果。

但是到了2023、2024年,技术发展两年后,大家发现了端到端的瓶颈。当时OpenAI提出的“Scaling law”(尺度定律),认为不断扩充模型规模和数据量就能提升性能,从而实现更强的能力,预期GPT-5会因更大参数规模而更强大。然而到了2024年,GPT-5却迟迟未发布。大家在疑虑可能是因为互联网数据价值被榨干,遇到了数据瓶颈。

《21汽车·一见Auto》:为什么端到端路线会遇到数据瓶颈?

王晓刚:端到端学习属于模仿学习,依赖现有数据模仿人的驾驶行为,需要大量高质量数据作为基础。比如在某个场景中,十个人开车,一个高水平司机能顺利通过,而其他九人都停滞不前。这也意味着数据中90%都是低质量数据,那么端到端学习到底学到了什么?可能只是学到了一般的行为。

《21汽车·一见Auto》:后来你们是如何发现要转向世界模型路线的?

王晓刚:到了年初的时候,DeepSeek的出现标志着算法的突破,它主要依靠强化学习生成了大量前所未有的数据。

它核心点在于给出一道难题,有题目和答案,它能够提出十种不同的解题思路,人类可能做出来的只是其中两种,其中 80% 都是新的解题思路,这被称为 “思维链”。是人类历史上未曾有过的新数据和思路。这就像数学家研究猜想时,在解题过程中产生许多新定理和定义一样。

DeepSeek实际上突破了人类的天花板,为自动驾驶等领域带来了新的可能性。

《21汽车·一见Auto》:这种思维链如何与你们的大模型结合?

王晓刚:我们首先把长思维链、慢思考用到多模态。原来只能生成文字,现在还能生成图像。比如解几何题时,给你图形,你一边解题一边添加辅助线,不断演变图形。多模态原来只是文字的生成,那现在还有图像的生成。

《21汽车·一见Auto》:今年以来,世界模型非常热门,但前段时间有新势力延迟了他们的世界模型的发布。为什么其他团队也在做世界模型,却不及预期?

王晓刚:因为世界模型在量产过程中对数据积累要求非常高,如果11个摄像头中有一个摄像头的画面与其他的没有保持时空一致,这样的数据拿去做训练会让我的模型变差。但我们的研发团队对于世界模型的训练的要求更高。

《21汽车·一见Auto》:你们如何获得所需要的高质量数据呢?

王晓刚:世界模型能够仿真出物理场景,这里的高质量是指人的驾驶行为很高,那么我们是要通过强化学习,就是在端到端模型中不停地试,直到找到高质量数据,抛弃低质量数据。在真实的物理世界中,交通场景试验成本高,风险大,我们没法拥有很多试验机会。

《21汽车·一见Auto》:所以世界模型能提高智能驾驶的上限,需要解决哪些关键问题?

王晓刚:它能够超过人类的水平,而且还有更多安全的确定性。

做好世界模型需要解决两个关键问题。首先,场景至关重要。我们需要为模型提供有价值的难题场景,类似于DeepSeek 学习时需要高质量题目一样。在自动驾驶中,我们需要给它找“奥数题”,找更难的这种场景,即使现实中很少有驾驶员能成功应对。只要知道起点条件,我们就可以在仿真环境中不断尝试。其次,在仿真环境中,通过强化学习和端到端模型,能够模拟出优秀的驾驶行为。

做汽车AI领域的“卖铲人”

《21汽车·一见Auto》:你们现在在为主机厂提供的智驾、智舱业务,车企内部也有自研团队在做,你们如何平衡这种竞争与合作?

王晓刚:我们自己有一个形象的比喻,一类是“鸳鸯火锅”模式,关键在于边界划分,大家更多的是一种取代关系。另一类是太极模式,黑白相融,白中有黑,黑中有白,这也意味着车企的自研团队是我们的同类。我们的目标是,怎么去成就我的客户与他的自研团队。

《21汽车·一见Auto》:无论是鸳鸯火锅还是太极模式,都涉及车企和供应商两大主体。但主机厂对待供应商更流行赛马,而你们的团队文化是黑羊文化,你如何看待这两种文化的竞争?

王晓刚:其实正常,看待问题的出发点跟我们自身的定位有关。

主机厂一定需要AI能力,今天可能是智能驾驶,将来还有舱驾融合技术在不断演进,有的东西它是暂时的,我们要给他干的事,就是改造研发体系。

一个公司内部,这些AI基础设施不太可能是两套管线,而且这也是一个长期的建设过程。

《21汽车·一见Auto》:你们具体如何帮助别的公司内部自研团队?

王晓刚:企业要发展自动驾驶技术,需要在内部建立相应的AI团队,确保对技术有深入了解和掌控。因为自动驾驶涉及安全问题,企业要对产品的安全性和可靠性负责。

但其实在各个公司,AI的团队往往都是不大的。因为在AI方面,你要投入的资源毕竟有限。而人工智能它又是一个投入要求非常高的行业。

但如果企业不了解所使用的算法和数据,出了问题就无法承担责任,所以企业需要与AI公司合作,又需要能够比较好地把人工智能跟他自身发展结合在一起。我们也做了很多,涉及到对于企业里面整个系统的一些改造。

我们会把整套工具链、研发平台、数据平台,数据管线、数据格式,以及超算中心都会和车企一起共用、共享。比如有的时候我们还把我们的AI模型放到传感器里。

《21汽车·一见Auto》:你们在与客户合作时为什么会选择主动交付白盒?

王晓刚:自动驾驶领域最重要的就是数据。数据回流管道实际上是跟算法是强相关的。主机厂也有数据回流,但很多数据都回不到他这里,是回到供应商那里,而且数据就算给到他(主机厂),他都不知道数据该怎么用。

我们要协助车企搭建数据管道。数据就像埋藏在地底下的石油,我们需要有条通道把石油提取出来,这就是管线。数据不断变化,算法也在不断变化。但数据管线可以搭建一个桥梁把数据提炼出来,然后再用提炼的数据去训练自己的模型。

不管前端的算法怎么变化,各种采集这么分布,数据管线都能够对采到的数据进行传输,这是基础设施。

今天我们愿意跟车厂进行白盒交付,并不是因为无私,而是我们能够看清楚未来技术发展的路线和商业发展的趋势一定是要跟车厂深度结合。

《21汽车·一见Auto》:为企业提供AI基础设施、改研发体系和铺设数据管线,绝影如何确保自己的不可替代性?

王晓刚:我觉得这是一个战略的选择问题。

另外从商汤的角度来说,我们的发展,实际上是在AI的领域不断地往前演进,所以说我们后面也会不断地有新的武器出来。

AI目前每年都有新的技术路线,在向前发展。只要这个趋势不变,那商汤在这个领域里,我们作为AI平台公司,一直跟随着或者引领行业里面最前沿的东西,对主机厂就是有价值的。

《21汽车·一见Auto》:与其他方案商相比,商汤绝影的优势是什么?

王晓刚:我们还是一个人工智能公司,背靠商汤会给我们带来源源不断的弹药。

*注:

该论文为2017年9月王晓刚等人发表的《 Scene Graph Generation from Objects, Phrases and Region Captions》

(记者易思琳对本文亦有贡献)

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片