中金：从OpenAI Sora看视频生成模型技术进展|长视频_新浪财经

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

Abstract

摘要

延续DiTs架构，Sora实现高质量长视频生成。根据技术报告，Sora延续DiTs架构，随训练计算量提升而展现出显著的生成能力提升（Scalable）。相较先前模型，我们认为其最为突出的创新之处在于：1）LDM自编码器实现时间维度压缩，使得长视频生成成为可能；2）直接对LDM中潜视频进行图块化处理并直接使用Transformer建模，解除输入格式限制的同时，能够创新性地实现任何像素和长宽比视频的生成；3）我们判断其训练数据集中可能包含带有物理信息的合成数据，从而使模型展现出对物理信息的初步理解能力；4）复用DALL·E 3的重标注技术，对视频数据生成高质量文字标注，借助GPT对提示词进行扩展，提升生成效果。

技术基础一：扩散模型是当前图片/视频生成的主要技术路线。扩散模型（Diffusion model）通过神经网络（主要是U-Net）从纯噪声图像中学习去噪过程，从而通过给定噪声来完成图像生成任务。潜在扩散模型（Latent diffusion model）通过降维进一步提升了训练效率并降低训练成本，成为图片生成的主要技术路线。在预训练的图片生成模型基础上，学界提出生成关键帧并在时序上实现对齐即可将图片生成模型转化为视频生成模型，但这类模型存在生成时长短、稳定性差等劣势。

技术基础二：Transformer架构的引入使扩散模型能够实现规模效应。DiTs（Diffusion transformer）将先前扩散模型的骨干U-Net卷积网络替换为可伸缩性更强的Transformer，从而能够实现更强的可拓展性，即能够通过增加参数规模和训练数据量来快速提升模型的性能表现，模型在图片生成任务上表现优异。W.A.L.T.首次将Transformer架构引入视频生成模型，使用窗口注意力降低了对算力的需求，并展现了良好的视频生成能力。

我们认为Sora实现了AI+视频场景的效果突破，通过借助Transformer架构展现了优异的可拓展性（Scalable）。展望未来，我们判断基于Transformer架构的大模型有望在更多模态领域实现复刻，看好多模态领域技术进展。

技术进展不及预期；应用落地不及预期；行业竞争加剧。

Text

正文

Sora：基于DiTs架构，实现长视频的高质量生成

Sora展现了高质量的长视频生成能力，相较先前的视频生成模型，我们认为其最为突出的创新之处在于：1）LDM自编码器实现时间维度压缩，使得长视频生成成为可能；2）直接对LDM中潜视频进行图块化处理并直接使用Transformer建模，解除输入格式限制的同时，能够创新性地实现任何像素和长宽比视频的生成；3）我们判断其训练数据集中可能包含带有物理信息的合成数据，从而使模型展现出对物理信息的初步理解能力；4）复用DALL·E 3的重标注技术，对视频数据生成高质量文字标注，借助GPT对提示词进行扩展，提升生成效果。

图表：Sora潜在的模型架构

资料来源：Sora技术报告，中金公司研究部

潜在的模型架构：以DiTs为核心，展现出优异的可拓展性。根据Sora的技术报告，其整体延续了DiTs（Diffusion transformer）架构，将Transformer引入潜在扩散模型（Latent diffusion model）实现良好的可拓展性。技术报告展示了伴随模型扩大和训练次数增加而产生的规模效应（Diffusion transformers scale effectively）。从架构上来看，我们判断Sora可能主要由几部分组成：

► Visual Encoder/Decoder（如VAE等）：Encoder将原始图片和视频数据编码进入隐空间，降低维数节省算力；Decoder将潜空间中的数据重新映射为图片和视频数据。

► DiTs模块（基于Transformer的扩散模型）：模型的核心，将扩散模型的骨干U-Net卷积网络替换为可伸缩性更强的Transformer，展现出优异的可拓展性。

► Text embedding：将用户输入的Prompt编码为文本嵌入向量，作为DiTs模块的Conditioning，引导模型生成符合文本描述的视频。

图表：Sora展现了明显的可拓展性（Scalable），伴随训练计算量增加而性能明显提升

资料来源：Sora技术报告，中金公司研究部

Sora的技术报告展示了数据处理和模型训练过程中创新，我们归纳总结如下：

► 在Visual Encoder/Decoder阶段，训练了新的视频压缩网络：OpenAI训练了新的视频压缩网络（Video compression network）对原始视频数据在时间和空间上实现降维编码（Encoder），并训练了相应的解码器（Decoder）实现潜空间（Latent space）到视频像素空间（Pixel space）的映射；我们认为时间维度上的压缩可能是Sora能够生成较长视频的原因之一。

► 在DiTs阶段，将视频数据图块化为Patches：类比基于Transformer的大语言模型（LLM）需要处理文本Tokens，基于Transformer的图片和视频模型也需要以分块数据作为处理对象，其将隐空间视频分割为“视觉图块（Visual patches）”作为视频数据的有效表示。我们认为以上处理方法与W.A.L.T.论文基于关键帧+空间/时空窗口的方法或存在较大差异，通过直接对潜视频空间中的数据进行直接图块化处理，Sora能够处理任意分辨率、任意长宽比、任意时长的视频，这一特性与主流的视频生成模型相比具备优势（主流视频生成模型需要对视频进行缩放和裁剪）。

► 复用DALL·E 3重标注技术，实现高质量视频标注：在文字理解层面，Sora没有基于人工标注的图片-文字数据集进行训练，而是复用了OpenAI自家的DALL·E 3的重标注技术（re-captioning），训练了高质量的视频标注器，并对训练集中的视频生成了文字标注。此外，Sora还发挥了OpenAI的GPT的优势，能够将用户给出的较短的提示词扩展为较长的提示词作为视频模型的输入，实现更好的生成效果。

图表：Sora将视频单元划分为Patches，实现类似LLM模型中的Tokens角色

资料来源：Sora技术报告，中金公司研究部

图表：Sora本质是扩散模型，通过Transformer去噪生成“干净”的Patches

资料来源：Sora技术报告，中金公司研究部

Transformer架构或充分发挥了OpenAI在算力和数据等领域的全方面优势。整体来看，我们认为Sora在架构层面还是延续了DiTs（Diffusion transformer），在潜视频空间编解码、图块划分等领域或具备一定的创新。我们认为Transformer架构的高扩展性充分发挥了OpenAI在算力（借助微软的庞大算力群）、数据（具备高质量的有标注视频数据集）的优势，在视频生成场景下实现了类似LLM领域的“GPT时刻”。

模型仍具备提升空间，视频内容生成门槛有望大幅降低。模型也展现出了一定程度的不足，如模型对物理关系的理解能力不高（如玻璃破碎无法很好展现），以及模型生成视频的因果逻辑仍有待验证。尽管如此，我们认为Sora打开了通过堆叠参数和数据规模实现性能提升的通道，我们判断基于DiTs架构的视频生成模型或成为下一阶段的主流技术，有望通过数据积累和参数规模上升实现持续的性能提升。伴随模型能力越来越强，我们认为高质量视频内容生成成本和视频创作门槛或将大幅降低；同时，我们判断模型对物理信息的学习和提取也有望越来越强，未来在智能驾驶、具身智能等领域也有望实现应用突破。

视频生成模型技术回顾：以扩散模型为基，从U-Net到Transformer

扩散模型：图片和视频生成模型的骨干

扩散模型是图片/视频生成模型的核心技术。扩散模型（Diffusion model）通过神经网络（主要是U-Net）从纯噪声图像中学习去噪过程，从而通过给定噪声来完成图像生成任务。潜在扩散模型（Latent diffusion model）则进一步将扩散模型优化，将图像编码压缩到维度较小的隐空间进行扩散学习过程，再通过解码器还原至图片，是目前主流的图片生成模型（如Stable Diffusion、DALL·E 3等）的骨干。

图表：扩散模型原理示意图

资料来源：Medium平台，中金公司研究部

视频本质上是一系列图像的连续展示，图片生成是视频生成的基础。视频本质上是一系列有前后逻辑关系的图片的连续展示，因此图片生成是视频生成的基础。目前主流的视频生成模型的技术路线为基于图片生成模型进行微调，通过生成一些“关键帧”并在关键帧之间进行插值和时序对齐，从而达到视频生成的效果。Blattmann等（2023）提出可以基于预训练好的文生图模型引入时间层，通过在视频数据上进行微调，将图片生成模型转化为视频生成模型。

图表：通过时序对齐，图片生成模型可以训练为视频生成模型

资料来源：《Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models》（Blattmann等, 2023），中金公司研究部

基于U-Net的扩散模型在信息损失和输入多样性方面具备一系列缺点。U-Net模型核心是卷积神经网络，这导致U-Net在图片生成过程中具备一些天然的缺点：1）U-Net的下采样过程会造成信息的损失；2）卷积神经网络要求输入的图片具有固定的分辨率，对输入的限制也造成了输出格式的限制（只能生成固定长宽比、固定分辨率的图片），模型的可拓展性较弱。

先前的视频生成模型在像素稳定性和逻辑一致性等方面仍存在提升空间。我们总结先前的扩散模型存在较为一致的共性问题，主要包括：

► 画面像素和稳定性：模型生成的视频普遍像素较低，且部分关键帧可能存在风格偏移，导致视频画面出现“闪烁”；

► 逻辑连续性：视频前后的图像可能存在逻辑混乱，尤其是在长视频生成任务过程中，较难保证视频前后的逻辑一致性；

► 生成时长较短：多数视频生成类模型和应用只能生成3-4秒钟的视频，时间过长可能会导致视频的风格迁移或前后逻辑混乱；

► 缺乏高质量数据集：公开的视频缺少标签、缺乏多样性，相较LLM可以在Common crawl训练，图片生成模型可以在ImageNet上训练，目前还没有大型的可以用于视频训练的数据。

图表：视频生成类AI大模型和产品进度，截至2023年底

资料来源：a16z，中金公司研究部

DiTs：将Transformer架构引入扩散模型，模型可拓展性大幅增强

DiTs（Diffusion transformer）将Transformer架构引入扩散模型。2022年底，Peebles和Xie发表论文《Scalable Diffusion Models with Transformers》，将Transformer架构引入扩散模型，在图片生成任务中表现出色。其核心是将先前扩散模型的骨干U-Net卷积网络替换为可伸缩性更强的Transformer，从而能够实现更强的可拓展性，即能够通过增加参数规模和训练数据量来快速提升模型的性能表现（类似GPT，实现“大力出奇迹”）。另一方面，由于Transformer的全注意力机制产生的内存需求会随着输入序列的长度增加而呈现平方增长，因此处理高维信号（如视频）时，模型对计算成本的要求也会相应较高。

图表：DiTs模型架构

资料来源：《Scalable Diffusion Models with Transformers》（Peebles和Xie，2022），中金公司研究部

W.A.L.T.首次将Transformer引入视频生成模型。2023年底，Gupta等发表论文《Photorealistic Video Generation with Diffusion models》，将Transformer架构整合到隐视频扩散模型（Latent video diffusion model, LVDM）中，主要工作有两项：

► 第一阶段：用一个自动编码器将视频和图像映射到一个统一的低维隐视频空间，使得在图像和视频数据集上联合训练单个生成模型成为可能，并显著降低生成高分辨率视频的计算成本；

► 第二阶段：设计了一种用于隐视频扩散模型的新Transformer模块，对隐空间中的视频帧进行分块（Patchify），使用局部窗口注意力显著降低计算需求。模型引入了两种局部窗口，分别为：1）空间窗口（SW）学习单个关键帧里面的位置关系；2）时空窗口（STW）学习关键帧之间的时序关系。

W.A.L.T.开创性地将Transformer架构引入视频生成任务中，同时使用窗口注意力（而非全注意力）降低了高维视频信号对算力的需求，让Transformer处理视频数据得以实现。

图表：W.A.L.T.模型首次实现将Transformer架构引入视频生成模型