独家｜刚刚！小鹏甩出世界模型X‑World，70亿豪赌AI彻底赢麻了？|小鹏_新浪财经

（来源：智能纪元AGI）

这次，何小鹏的70亿AI投入，如今看到了最新成果。

3月23日消息，智能纪元AGI独家获悉，小鹏汽车GWM团队近期研发出基于动作条件的可控多摄像头生成式世界模型X-World，旨在解决端到端自动驾驶系统评估与训练中的核心瓶颈。

实验表明，X-World 能够生成高质量的多视角视频，其特点包括：跨摄像头视角一致性强；在长时间滚动过程中保持稳定的时间动态；具有高度可控性，能够严格跟踪动作并忠实地遵循可选的场景控制等。

这将是小鹏汽车发布第二代VLA模型之后的又一个里程碑式AI技术产品。

目前，世界模型X-World论文已经于3月23日上传到arxiv平台。

https://arxiv.org/pdf/2603.19979

在端到端自动驾驶时代，可扩展且可靠的评估变得日益重要。在这一时代，视觉-语言-动作（VLA）策略直接将原始传感器数据流映射到驾驶动作。

然而，当前的评估流程仍然严重依赖于实际道路测试，这不仅成本高昂，而且场景覆盖范围有限，难以复现。这些挑战促使我们开发一种能够根据预设动作生成逼真未来观测结果的真实世界模拟器，同时保持长期可控性和稳定性。

因此，小鹏汽车团队提出了 X-World，这是一种基于视频扩散的、可控制的多视角生成式自动驾驶世界模型。

X-World 模型是在一个精心策划的数据集上训练的，该数据集包含大规模的高保真真实世界驾驶序列。这些序列的特点是多样性，涵盖了广泛的外部环境、异构的汽车行为以及复杂的多智能体交互。每个数据样本都由一段 10 秒的时序片段组成，并整合了以下多模态数据流：

多视角视频流：来自七个周边摄像头的同步视频源。

动态对象轨迹：使用高精度动态感知模型识别的动态主体（例如，车辆、行人）序列。

静态场景元素：从高精度静态感知模型中获取的静态基础设施（例如车道、交通标志）的标注等。

另外，为应对多摄像头自动驾驶场景中几何一致性这一关键挑战，我们提出了一种针对X-World多条件生成框架量身定制的DiT模块。

该设计有两个关键目标：1、强化具有强大跨视图一致性的时空建模；2、在异构条件信号（例如、动作、相机参数、动态目标、静态道路元素和文本提示）下实现可控生成，同时将跨条件干扰降至最低。

简单来说，小鹏的X-World采用视觉、环境和感知、AI智能体等技术以适合模态的条件注入机制，保持平衡表达能力和稳定性。

如今，X-World 可以生成跟随指令动作的未来多摄像头视频流，还支持对动态交通代理和静态道路元素的可选控制，并保留了用于外观级别控制（例如天气和时间）的文本提示界面，并可以直接在视频空间中模拟未来观测结果。

至关重要的是，与传统的双向视频扩散模型不同，X-World采用流式自回归的方式运行，逐步生成未来帧，以支持实时交互。这种设计使模型天然地兼容闭环使用——既可用于端到端策略的规模化评估，也可用于在线强化学习训练，在这种训练中，模拟器必须对新采样的动作做出及时响应。

除了世界模拟之外，X-World 还支持通过外观提示进行视频风格迁移，同时保留底层动作和场景动态。X-World 的核心是一个多视角潜在视频生成器，旨在明确地鼓励在各种控制信号下实现跨视角几何一致性和时间连贯性。

总体而言，X-World使生成式世界模型更接近于一种可扩展的、交互式的模拟器抽象，能够支持可复现的基准测试、场景编辑以及端到端/VLA自动驾驶系统的闭环部署，同时还能实现可控的数据合成和基于外观的风格迁移。我们相信，这一方向将在可扩展的评估与训练中发挥越来越重要的作用——包括在线强化学习——因为它能够实现低成本、可重复且多样化的交互，而这些交互是仅靠真实世界测试所无法实现的。

目前，X-World世界模型被小鹏汽车用作在线强化学习（RL）的训练环境，同时还充当一个生成式数据工厂，合成难以通过车队车辆收集的稀有且高价值的数据资产。

“利用X-World，我们可以程序化地生成安全关键事件，例如极端天气状况、罕见车型或异常行人行为，从而提供均衡的训练分布，缓解长尾问题。而在海外拓展，为支持我们的全球战略，X-World实现了数据的“零样本风格迁移”。通过以本地化外观提示（例如，欧洲道路标志、独特交通信号或左侧通行逻辑）作为模型条件，我们可以将国内驾驶数据转化为海外训练资源，从而大幅加快我们的国际化部署步伐，而无需进行大量本地数据采集。”小鹏团队在论文中表示。

据悉，今年3月，小鹏汽车发布了第二代VLA模型。