Sora能否成为世界模型？_新浪财经

作者 | 高惠东

投稿 | lanxueziben（微信）

城市合伙人招募 | lanxueziben（微信）

OpenAI发布Sora后热度居高不下，其在技术文档里称：通过Sora有望能构建出能够模拟物理世界的通用模拟器，这激起了Sora能否成为世界模型的激烈讨论。本文将介绍世界模型的概念与作用，并且透过各方的观点探讨Sora能否成为世界模型。

Sora简介

2024年2月15日，OpenAI推出视频生成模型：Sora，一款文生视频（text-to-video）的模型。Sora是通过学习视频内容，来理解现实世界的动态变化，并用计算机视觉技术模拟这些变化，从而创造出新的视觉内容。当然Sora除了支持文字生成视频外，还支持文字+图片、文字+视频、视频+视频的方式创作新的视频内容。

Sora在发布后几周内热度居高不下，因为其在生成式视频模型领域实现了各个维度的巨大提升。首先，其可以生成一分钟的高清视频，并且支持生成不同时长、长宽比、和不同分辨率的视频与图像；其次，与其它文生图模型对比，Sora使用时空统一的编码对时间和空间进行了tokenization，实现了精细化的建模能力，使其拥有了逼真而细腻的风格；并且Sora可以生成带有动态摄像机运动的视频，在不同距离和时序遮挡情况下，保持角色外观与风格，与3D画面的一致性；最后，其拥有自动镜头切换与视频无缝衔接的能力，自动生成多角度多镜头的画面。

Sora模型的特点是成本高，算力多，并且数据多。预测未来由于算力需求巨大会催生一波对云端算力的需求。并且，生成式的视频AI模型会深入的改变各行各业。在电商行业可能会改变营销和使用方式。比如利用生成式AI提升商品视频图片文案质量，以及拥有直播时实时视频的生成能力。在文娱行业会催生大批创作者尝试各种创意方案，极大地降低成本和制作时间。并且Sora所拥有的3D生成视频技术也可与VR技术或头显进行结合，数字人、交互式视频等新的互动模式可能会兴起。

OpenAI认为，Sora是构建世界模型的必经之路。在Sora技术报告中，OpenAI称：通过扩大视频生成模型的规模，我们有望能构建出能够模拟物理世界的通用模拟器，这无疑是一条极具前景的发展道路。OpenAI近年来一直在积极发展生成式AI，2021年发布了图片类生成模型DALL-E，2022年发布了语言类生成模型ChatGPT。2024年发布的Sora作为视频类生成模型，意味着OpenAI完成了语言，图像，视频三大模态能力，正在大踏步的朝第四步世界模型前进。不过众多专家对Sora是否能够成为世界模型存疑，我们接下来将详细展开。

世界模型

首先我们需要理解，到底什么是世界模型，其到底有什么作用？世界模型是指由计算机或者人工智能系统构建的对于现实世界的模拟与表达。它是一种全面、综合地描述和预测环境的方法，通过对感知信息的处理和数据建模，可以实现对于物体、场景、动作等要素的准确抽象和模拟。举个例子，世界模型在看到电脑时能够准确的理解电脑是一个办公工具，所以在下一秒的视频生成中电脑前很可能会出现一名办公人员。再比如，世界模型看到了苹果从树上脱离，其能够预判苹果接下来会落在地上。

世界模型的作用不仅仅只是在于之前所提到的改变文娱或电商等行业的运作方式，其更是: 1.成为Artificial General Intelligence（AGI）通用智能的必经之路；2.有望成为自动驾驶或机器人领域的基础模型，解决自动驾驶与机器人领域的边角案例。

世界模型是通往AGI的必经之路。人们普遍理解的AGI定义是，AI系统能够以人类水平或更高水平在多个认知领域进行理解和推理。这与目前专门从事特定任务的狭义AI系统（如AlphaGo）形成了鲜明对比。AGI指的是一种AI系统，具备全面的、人类水平的智能，能够跨越不同的抽象思维领域。这就要求我们有能力创建一个与经验相一致的世界模型，并允许对预测进行准确的假设。

目前AI面临一个重要问题，就是它们的训练数据。大多数语言模型仅在文本基础上进行训练，不具备在现实世界中说话、听觉、嗅觉或生活的能力。即使能够创建一个世界模型，他们的世界也只是一个纯文字的世界，句法上正确，但语义上并不全面。这种环境缺乏直接感知所产生的“常识”，所以显得乏善可陈。所以AGI的产生，需要语言，图像，视频等多模态数据，未来可能还会出现嗅觉触觉等数据，因此需要一个多模态的世界模型。

世界模型也被认为可能成为自动驾驶或者机器人领域的基础模型。特斯拉在2023年的CVPR上已经展示了其对生成式世界模型的尝试。他们声称其训练的世界大模型可以预测未来，可以被控制，可以在RGB、语义、几何空间使用，生成不同形式的输出。特斯拉而后在CVPR会议中展示了此模型生成的对下几秒多个摄像头预测的视频。

特斯拉表示，这个大模型可用于仿真，可生成不常见的情况，更可以被用于FSD本身，成为GPT一样的自动驾驶基础模型，其它具体任务都围绕基础模型开发构建。有专家推测这个模型经过4亿公里视频的自监督学习训练，可能已经可以理解物理世界的一些基本运行规律。比如可以在视频中预测远处物体离近后会变大，飞起的石头是否会砸到自车等。世界模型对物理世界规律的理解可以解决监督学习的本质问题，就是对事物举一反三的能力。监督学习需要人类大量的标注，但人类无法以标注的方式教会自动驾驶系统所有事物，系统必须能自己从观察中学到世界的本质。只有系统真正理解了这个世界，其才能拥有泛化的能力，才能在遇到未见过的边角案例时理解应该如何处理。

特斯拉在会议中还进一步表示，其所致力于开发的世界模型，未来也希望能够推广到机器人方向，成为具身智能领域的通用基础模型，为未来的AGI通用人工智能铺路。

我们推测的可能的训练部署框架如下：模型的输出为视频，与实际视频片段组成训练集完成训练。在实际的模型使用中，模型会根据现有状态与指令生成预测的下几秒的视频，然后系统会根据预测的视频算出不同的损失函数，从而判断下一步应该做什么（比如左转右转），完成下一步动作。

Sora->世界模型？

理解了世界模型是什么以及有什么作用后，我们回到最开始的问题：Sora到底能否成为世界模型？模型对物理规律有两种理解，常识性的理解能够做到看到苹果从树上脱离，下一步推断出苹果掉到地上。这就像古人一样，虽然不明白背后的道理，但是看到某种自然现象能够大概判断出下一步会发生什么。另一种理解是理论性的理解，比如牛顿明白苹果掉落背后的原理是F=ma。Sora属于第一种，通过数据可以模拟出事物的表象规律，这能否被称为世界模型，还是需要像模拟器那样有理论支撑？纵观目前主流的观点，普遍认为Sora还无法被称为世界模型，但是未来可期。

图灵奖得主Yann LeCun 率先亮明观点。在他看来，仅仅根据prompt生成效果惊艳的视频并不能代表一个模型理解了物理世界，因为生成视频的过程与基于世界模型的因果预测完全不同。他表示，“模型生成逼真视频的空间非常大，视频生成系统只需要产生一个合理的示例就算成功。”。并且许多人认为视频符合物理规律，不等于视频的生成基于物理规律，更不等于生成视频的大模型本身是数据驱动的物理引擎。所谓物理，可以只是视频画面整体与局部、前后帧统一的像素级的变化规律、表征关系。

第二类人的反对观点认为，Sora本质上还是一个概率模型，所生成的内容都是基于输入数据得到的一个概率输出，没有真正理解世界的可能。美国纽约州立大学石溪分校计算机系教授顾险峰表示，用概率统计的相关性无法精确表达物理定律的因果性，Transformer可以学习临近时空令牌间的连接概率，但是无法判断全局的合理性，也忽略了物理过程中最为关键的临界（灾变）态。Sora生成的果汁泼溅视频中，有两个稳定状态，水杯直立的状态，和果汁已经泼溅出来的状态，但是最为关键的临界状态：果汁从杯中流洒出来的过程却没有生成出来。虽然只有短暂的几帧，但是对于人类感知整个过程却是非常重要。

还有的反对观点，集中在批判Sora做的数据模拟难以泛化，无法达到世界模型对真实世界准确的模拟和表达。Keras之父Chollet认为，Sora确实展现出了对物理世界的模拟。但问题是这个模拟是否准确？它能否泛化到新的情况，即那些不仅仅是训练数据插值的情形？这次问题至关重要，因为他们决定了生成视频的应用范围是仅限于媒体生产还是可以用作现实世界的可靠模拟。Chollet总结到，通过机器学习模型拟合大量数据点后形成的高维曲线在预测物理世界方面是存在局限的。在特定条件下，大数据驱动的模型能够有效捕捉和模拟现实世界的某些复杂动态，比如预测天气、模拟风洞实验等。但这种方法在理解和泛化到新情况时存在局限。所以他认为不能简单通过拟合大量数据来期望得到一个能够泛化到现实世界所有可能情况的模型。

但也有人持支持的观点。英伟达高级研究科学家Jim Fan判断，Sora是一个数据驱动的物理引擎，是一个可学习的模拟器，或世界模型。他认为Sora是通过大量视频通过梯度下降来隐含的在神经参数中学习物理引擎。Sora不会在训练中显示调用UE5，但是UE5生成的文本视频可能会作为合成数据添加到数据集中帮助其学习物理世界。并且，UE5本质上可以被认为是一个非常复杂的成视频像素的过程。Sora本质上也是一个生成视频像素的过程。它们的不同之处在于UE5是人为编写的一个精确的程序，而Sora则是纯粹通过数据学习的程序而已。再举个例子，GPT4一定是学习到了某种形式的语法、语义和数据结构，才能生成可执行的Python代码，因为GPT-4本身并不存储Python语法树。同理，Sora一定学习到了一些“隐式”的3D转换、光线追踪渲染技巧和物理规则，才可能准确地对视频像素进行建模。

还有人认为，当前并不是所有的需求都需要对物理世界有一个准确的理解后，才能生产出相应的产品来满足人类的需求。举个例子，欣赏图片/视频时，我们的眼睛并没有关心每一个像素点是否符合物理世界规律。一个广义的世界模型已经可以满足很多需求，极大提高人类的收集，分析，生产信息的效率。

其实世界模型不仅仅只有Sora一种，以Meta AI为代表的Yann LeCun近几年也一直在推广他们的世界模型架构Joint Embedding Predictive Architecture（JEPA）。世界模型的生成式流派代表的是OpenAI，发布的Sora希望通过大数据大参数大算力以自回归的方式走向通用人工智能。世界模型的预测式流派以Meta AI的Yann LeCun为代表，这一学派认为自回归的Transformer无法通往AGI。Yann LeCun认为，非生成式的预测式JEPA系列（联合嵌入预测架构）能够产生更优秀的视觉输入表达。

Yann LeCun认为，即使是如今最先进的AI系统，也始终无法突破一些关键限制。为了突破大模型幻觉问题等桎梏，基于世界模型，他提出了自主智能系统的体系架构。这个架构包含6个核心模块，配置器（Configurator）是协调指挥中心，负责协调、配置和执行其他模块；感知（Perception）针对给定的任务，由配置器调用，感知世界状态和提取任务相关信息；世界模型（World Model）主要的职责是估计Perception未提供的关于世界状态的缺失信息，并预测合理的未来世界状态，比如预测由Actor模块提出的一系列动作所导致的未来世界状态；角色（Actor）负责寻找最优的行动方案；成本（Cost）负责计算智能体的不适值（discomfort），目标是最小化内在成本的未来值；短期记忆(Short Term Memory）负责跟踪当前和预测的世界状态以及相关成本。