AI下一个必争之地，会引发自动驾驶“终局之战”吗？|人工智能_新浪财经

文|极智GeeTech

　　“机器人的ChatGPT时刻即将到来。与大语言模型一样，世界基础模型对于推进机器人和自动驾驶汽车的开发至关重要。”

　　在CES 2025上，黄仁勋身穿新皮衣，除了推出炸裂的RTX 5090之外，还宣布入局人工智能领域当下最关键的方向——世界模型。

　　此次英伟达发布的Cosmos世界基础模型专为物理交互、模拟工业环境和驾驶环境的高质量生成而构建，可以生成逼真的视频用于训练机器人和自动驾驶汽车，并通过创建合成训练数据帮助机器人和汽车理解物理世界。

　　除了英伟达，谷歌(200.03, 0.40, 0.20%)以及不少初创企业也在追逐世界模型，谷歌旗下DeepMind组建世界模型研究团队，被视为谷歌在通用人工智能（AGI）领域与竞争对手展开角逐的重要一步。此外，“AI教母”李飞飞的World Labs、初创公司Decart、Odyssey也都涉足其中。

　　北京智源人工智能研究院近日发布的“2025十大AI技术趋势”认为，更注重“因果”推理的世界模型有望成为多模态大模型的下一阶段。

　　世界模型不仅引得全球科技企业竞相逐鹿，还被业内视为人工智能领域的下一个关键突破。世界模型为何如此重要？对于自动驾驶等科技领域将触发怎样的新变革？

　　人工智能下一个“必争之地”

　　在现实世界中，技术也是可以高度重构的，随着时间的推移、新技术的出现，未来在不断改进、不断进化。

　　自2022年底，随着OpenAI发布大语言模型ChatGPT，生成式AI大模型便逐渐演化出了两条路径：语言模型和世界模型。

　　语言模型继续在数字世界深耕，从单一的文本模态走向包含图片、视频在内的多模态，使其具备了文生图、看图说话、图生图、文生视频的能力，典型代表就是Sora和GPT4-o。

　　不过，语言模型最受争议的挑战是它们产生幻觉的倾向，会捏造参考资料和事实，或在逻辑推断、因果推理等方面颠三倒四、生成毫无意义的内容的情况，这些幻觉都源于它们缺乏对事件之间因果关系的了解。

　　这也表明，语言模型虽然善于从数据中识别和提取因果关系，但缺乏自己主动推理新的因果场景的能力。它们具备通过观察进行因果归纳的能力，但不具备因果演绎的能力。

　　世界模型则从数字世界走向物理世界，从一维形式的数字智能走向三维形式的空间智能。它通过预训练扩展视频和多模态数据，并集成多模态语言模型，可用于为视频游戏和电影创建实时交互式媒体环境，以及为机器人和其他人工智能系统创建逼真的训练场景等诸多场景，被业界认为是通往通用人工智能（AGI，指机器能够理解或学习人类能够执行的任何智力任务）的关键路径。

　　追溯一下，“World Models”（世界模型）最早出现在机器学习领域。

　　2018年，机器学习顶级会议NeurIPS收录的《Recurrent World Models Facilitate Policy Evolution》论文，以认知科学中的心智模型（Mental Model）来类比世界模型，认为其参与了人类的认知、推理、决策过程。其中，最核心的能力——反事实推理（Counterfactual Reasoning），是一种人类天然具备的能力。

　　2024年2月，OpenAI发布了震惊世界的文生视频大模型Sora，它可以根据文本自动生成一段60秒视频，这成为世界模型的一个具象体现。

　　传统的生成式模型或许能够准确预测篮球会弹跳，但并不真正理解其中原因，就像大语言模型实际上是基于神经网络的概率推理，给出最可能符合实际预期的答案，而非真正理解词语和短语背后的意义。然而，具有基本物理认知的世界模型将更善于展现“篮球的真实弹跳”。

　　相比大语言模型还停留在理解人类语义阶段，世界模型则以三维视角开始理解真实的物理世界。

　　关于理解真实世界的物理法则，其实并没有想象得那么容易。比如，现在让你去想象手掌时，你都能准确且毫不费力地想象出来，但是在目前人工智能的制作中，会经常会出现多根手指或连指的现象。

　　此前，Meta首席人工智能科学家杨立昆（Yann LeCun）就明确表示，基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言，像Sora这样通过生成像素来建模世界的方式注定要失败。

　　世界模型正在试图超越数据，模拟人类的潜意识推理。例如，棒球击球手能在毫秒内决定如何挥棒，是因为他们可以本能地预测球的轨迹。这种潜意识推理能力被认为是实现人类级智能的先决条件之一。

　　为此，世界模型通过在大量的照片、音频、视频和文本数据上进行训练，创建对世界运作方式的内部表征，并能推理行为的后果，这使它们能更好地理解和模拟现实世界的规律。

　　当前，人工智能领域对世界模型的需求主要集中在两个方面。

　　第一，对环境的深度理解和建模。通过建立准确的世界模型，人工智能系统可以更好地感知和理解外部世界，从而做出更加准确和智能的决策。当前，人工智能领域在这一方面的研究主要集中在强化学习和深度学习领域，通过神经网络等技术来构建复杂的世界模型，并不断优化和改进模型的性能。

　　第二，是反事实推理的能力提升。反事实推理，也就是回答“如果……会发生什么？”问题，这是当前人工智能系统能力的一个短板。通过提升世界模型的反事实推理能力，人工智能系统可以更好地预测不同决策的可能结果，从而做出更加智能和合理的决策。人工智能领域在这一方面的研究集中在改进模型的预测能力和优化推理算法等方面，以提升模型的整体性能和效果。

　　自动驾驶迎来“关键一战”

　　对于世界模型是否会成为自动驾驶的终极之战，目前下结论为时尚早，不过可以肯定的是，一旦这一技术趋于成熟，将对自动驾驶的智能化水平带来“质”的跃迁。

　　自动驾驶的飞速发展，对数据有了进一步要求。车企需要丰富、复杂场景来锤炼汽车的自动驾驶能力，然而现实生活中数据采集成本居高不下，部分危险场景难以采集，长尾场景稀缺，影响自动驾驶进一步发展。

　　因此，采用合成数据来助力自动驾驶模型训练成了有效的解决方案，世界模型正是这样的场景生成和预测器，能够为自动驾驶模型训练提供丰富虚拟场景。

　　过去，多模块化的智能驾驶方案可以对感知和规控模块分别进行验证，在感知端层面，工程师可以将感知的结果和带有标注的真实世界状况直接对比，进行开环监测；在规控模块，可以依靠仿真工具将世界的各类场景输入，通过环境的变换来给模型反馈，进行闭环的验证规控算法性能。

　　而端到端智驾方案将感知、预测、规划、控制集成一体，这就要求仿真工具既可以逼真地还原外部环境，同时又能给模型反馈实现闭环测试，这是世界模型可以实现的。

　　虽然国内汽车行业现在的关注焦点停留在端到端，但业内共识是，从“两段式”逐步过渡到“一段式”端到端，最终实现世界模型的应用，是实现高阶自动驾驶的一条必经之路。

　　如果梳理自动驾驶技术的发展路线，就会发现一个非常有意思的事情。所谓“功夫在诗外”，这几年所有对自动驾驶发展产生推动的技术其实都不源于自动驾驶，而是人工智能，包括BEV+Transformer、占用网络OCC、端到端、世界模型，自动驾驶的本质就是人工智能的一个具身智能体现。一定要把自动驾驶放到整个人工智能领域来综合看待，如果只盯着自动驾驶，这样就永远搞不好自动驾驶。

　　自动驾驶发展这么多年，都是在做空间理解的升级，就是让系统更理解周围的世界。

　　最早是通过提升传感器硬件能力，后来是算法升级，通过鸟瞰视图（BEV，Bird’s-Eye-View）进行视角转换，利用占用网络（OCC，Occupancy Network）将2D转换为3D，到现在软硬件能力都已经出现瓶颈，但是极端场景数据的获取却成了大难题。

　　目前比较常规的做法有两个，一个是3D重建，但这样的做法成本高、效率低，并不实用；另一个就是仿真，但是仿真的数据根本无法“还原”真实数据，对自动驾驶的帮助有限。

　　于是，世界模型通过自己“造数据”，成为提升自动驾驶训练效率的有效方式之一。其不仅可以通过生成式大模型生成带有预测性质的视频数据，实现Corner Case多样化训练，还可以采用强化学习的方法认识复杂驾驶环境，从视频输出驾驶决策。

　　世界模型将过去由人向人工智能主动提出问题，人工智能被动向访问者给予反馈的模式，进化为交互式人工智能的新阶段，使人工智能能够主动感知周围环境，并主动提问，从而变成一个可以自主行动的实体。

　　2023年，特斯拉(415.11, -8.96, -2.11%)自动驾驶负责人在CVPR上介绍了通用世界模型，该模型可以通过过往的视频片段和行动提示，生成“可能的未来”全新视频。

　　Wayve也在2023年发布了GAIA-1模型，可以依靠视频、文本和动作的输入生成逼真的视频，能够生成分钟级的视频以及多种合理的未来场景，帮助自动驾驶模型的训练和仿真。

　　在CES 2025上，英伟达发布Cosmos世界基础模型（WFM），可以接受文本、图像或视频的提示，生成虚拟世界状态，并针对自动驾驶和机器人应用实现内容的生成。

　　与此同时，国内厂商也在加速跟进世界模型的搭建。

　　2024年7月，蔚来(4.28, 0.10, 2.39%)发布智能驾驶世界模型NWM。这是一个具有全量理解数据、长时序推演和决策能力的智能驾驶世界模型，能够在短时间内推演出上百种可能发生的场景，并寻找到最优决策。

　　理想(22.62, -1.17, -4.92%)汽车也在其智驾方案中引入了“重建+生成的世界模型”，利用3D高斯模型做场景重建，利用扩散模型做场景生成，以重建仿真和生成仿真两种技术路线，为智驾方案提供了“错题集”和“模拟题”。

　　如此看来，世界模型势必将是汽车智能化的一道分水岭，其在场景生成、模型训练、仿真测试、数据闭环等方面的独特优势，将推动包括自动驾驶、机器人等在内的人工智能应用迎来“ChatGPT时刻”。

　　更轻的车，更“重”的云

　　归根结底，自动驾驶的竞争最终将是算法、算力、数据的底层能力之争，出现任何一块短板，都将引发木桶效应。

　　整体上看，自动驾驶正呈现出由车端竞争向云端竞争迁移的趋势，整个产业在更“轻”的同时也更“重”。

　　根据阿伯丁大学、MIT等机构的研究者对算力需求的研究发现，在2010年之前模型训练所需的算力增长符合摩尔定律，大约每20个月翻一番。自2010年初深度学习问世以来，训练所需的算力快速增长，大约每6个月翻一番。2015年末，随着大规模机器学习模型的出现，训练算力的需求提高了10-100倍，出现了一种新的趋势。

　　与目前用于生成式模型的计算量相比，训练和运行世界模型需要庞大的算力，即使是Sora（可以视为早期的世界模型）也需要数千个GPU来训练和运行，尤其是在其使用变得普及的情况下。

　　随着模型的持续进化，车端显然无法承受算力之重，智能化的中心必然要从车端逐步迁移到云端。