腾讯混元文生图大模型开源：Sora 同架构，更懂中文，已支持 16s 视频生成|腾讯_新浪科技

首个中文原生 DiT 架构，可免费商用。

作者 | 连冉

编辑 | 郑玄

又一家大模型开源了，这次是腾讯。

5 月 14 日，腾讯旗下的混元文生图大模型宣布对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。

随后在 5 月 17 日，腾讯集团副总裁蒋杰在在腾讯云生成式 AI 产业应用峰会上表示，腾讯混元大模型通过持续迭代，目前整体性能已居国内第一梯队，部分中文能力已追平 GPT-4。

针对备受关注的生视频能力，腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力，已经支持 16s 视频生成。在生 3D 层面，腾讯混元已布局文/图生 3D，单图仅需 30 秒即可生成 3D 模型。

混元文生图大模型是业内首个中文原生的 DiT（Diffusion Models with transformer）架构文生图开源模型，这也是 Sora 和 Stable Diffusion 3 的同款架构和关键技术，是一种基于 Transformer 架构的扩散模型。混元文生图大模型支持中英文双语输入及理解，参数量 15 亿。

过去，视觉生成扩散模型主要基于 U-Net 架构，但随着参数量的提升，基于 Transformer 架构的扩散模型展现出了更好的扩展性，有助于进一步提升模型的生成质量及效率。腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。

在 DiT 架构之上，腾讯混元团队在算法层面优化了模型的长文本理解能力，能够支持最多 256 字符的内容输入，达到行业领先水平。同时，在算法层面创新实现了多轮生图和对话能力，可实现在一张初始生成图片的基础上，通过自然语言描述进行调整，从而达到更满意的效果。

腾讯混元文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初，腾讯广告基于腾讯混元大模型，发布了一站式 AI 广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具，有效提高了广告生产及投放效率。

腾讯文生图负责人芦清林｜图片来源：腾讯

混元文生图大模型的发布会后，腾讯文生图负责人芦清林等人接受了极客公园在内的多家媒体群访，分享了腾讯文生图的进展和对 DiT 架构开发过程中的心得体会，以及为何选择将混元文生图大模型开源。群访内容整理如下：

为什么开源？

问：为什么在今年这个节点做开源？

芦清林：现在做开源其实有两个考虑，一方面我们从去年 7 月份开始做研发，那个时候其实大家都不知道有 DiT 这个东西，那个时候我们相对来说是在业界做得比较早的，也经过了比较长时间的打磨，所以现在是一个比较 ok 的阶段，所以对我们自己来说我们是 ready，我们是具备开源条件的。

第二我们为什么选择在此时此刻选择开源，我们已经看到过去基于 U-Net 架构这套已经逐步逐步越来越少的人去用它，大家更多是在 DiT 这样的结构上去建设。但是我们也看到很多的应用由于过去做了很多的工作，始终还保持在 Stable Diffusion 那个阶段上，同时也因为没有开源 DiT，所以导致他们没有办法切换到新一代的技术能力上来，所以一方面我们也 ready 了，第二方面，目前业界也是需要的，所以就干了这个事。

曾经的 AI 小模型时代其实开不开源差别也没有特别大，但现在有一个问题在于，如果业界不开放一些大体量的 FounDaTion model，独立的研究人员甚至一个大型的实验室都是很难做出一个好的 FounDaTion model，因为数据及其资源这些成本的问题，所以如果没有人把这样的 FounDaTion model 拿出来的话，未来一些很多的优化工作没办法进行。

问：现在开源和闭源的文生图技术能力差距是在逐渐拉大还是逐渐缩小？

芦清林：我觉得在我们开源之前是在逐渐拉大，但是希望通过我们的开源能把这个差距变小。

问：刚才听您说要生成一个社区，把技术报告公开，但是没有提到数据这块，数据这块会公开吗？

芦清林：对于训练的数据来说，一方面它有很多业务层面自己的数据，所以我们对这个东西我们自己可以用，但是 share 这件事情我们自己说了不算，比如很多的业务数据，这个东西我们说不了不算，这个还会有很多法律相关的东西。

问：对大模型开源有哪些看法，或者现在做大模型开源还有哪些难题需要突破？

芦清林：我觉得最重要的点首先得自己做得好，如果做得不好的话拿出来开源意义是不大的，把一个模型做得足够好地让大家能用起来，这一点很重要，也是必要的。

问：市面上有种说法是闭源的成本会更低效率更高，关于这一点怎么看？另外现在开源文生图后续会开放其他模型的吗？

芦清林：我们原来其实走的是闭源这条路线，包括去年都是把模型迭代，再把接口开放给大家用。但现在我们发现在开源社区能让大家都参与进来，这件事情是非常好的，共建能让这件事情能走得更快。

我们后续也会做一些开源的工作，包括后面的生文我们也在考虑如何能把它开源出来，但首先我们在考虑如何让大家能在用得起来。

DiT 会是多模态的答案吗？

问：可以介绍一下混元这块用 DiT 的时间线吗？

张建伟：首先我们做 DiT 其实是从 2023 年 6、7 月份的时候开始做的，那个时候我们认为已经是一个比较早的时间，因为那个时候大家大部分还是基于 Unet 去做，我们为什么去做 DiT，因为它是基于 transformer 的一个生成模型，transformer 我们有它本身的先验感，我们知道现在包括 ChatGPT 在它们已经基于 transformer 把文生图做得非常非常好了，并且基于 transformer 有一个非常强大的扩展能力，它的天花板非常非常高，目前我们还不知道它的天花板在哪儿。正是有了这样的先验，我们觉得文生图做文生文的水平，我们觉得走 transformer 的路是势在必行的，这也是我们为什么坚定地往 transformer 去走。

混元采用 DiT 架构｜图片来源：腾讯

问：在采用 DiT 架构之前，你们的模型参数量是更大的吗？

李志宇：在采用 DiT 架构之前，我们的模型参数量经历了逐步增长的过程。最初，我们使用的 Unet 模型参数量大约在 3 亿以下，但图像质量并不理想。为了提升性能，我们逐步增加了模型的参数量，从 3 亿增加到十几亿，再到 22 亿，最终达到 30 亿。随着参数量的增加，模型的图像质量有了显著的提升。然而，当参数量超过 30 亿后，我们发现计算量大幅增加，且性能提升开始遇到瓶颈。

为了突破这一瓶颈，我们开始尝试 DiT 架构。在尝试初期，我们采取了小步快跑的策略，从较小的参数量（7 亿到 600 兆或 700 兆）开始，并在充分验证后逐步增加参数量。目前，我们的模型参数量已经扩充到 15 亿，这是一个我们认为相对乐观的状态。未来，我们还计划将参数量进一步提升到 50 亿甚至 100 亿，以期望进一步提升模型的性能。

问：DiT 技术加强之后，在文生图这块可能会有很多的改进，在文生视频这个方向上技术进展会怎样，如果想追上 Sora 的话，除了 DiT 技术，还需要再做什么？

芦清林：这也是为什么我们今天想开源的一个初衷，我记得非常清楚大年初七的时候 OpenAI 把 Sora 放出去了，是因为他们有了一个很强的 DiT 模型，在视频维度上做了升级。我们希望我们能够把现在图片的 DiT 拿出来，让业界想做视频的这些同行让他们可以快速地有这么一个图片基础扩展到视频上去，其实这是非常明确的一个意图，大家可以在上面省掉很多时间。目前视频除了这个以外，还有很多比如对计算资源的诉求，视频其实会比图片的维度更多一些，对计算资源要求更高，这也是目前比较大的困难。

问：DiT 会是多模态版本的答案吗，或者还有哪些潜在的部署，可能会把 DiT 给替代掉？

张建伟：刚才提到的问题是多模态的问题，首先我个人认为或者我们团队认为 transformer 仍然是它必须要走的路，因为 transformer 它非常非常大的特点，它可以把所有的媒体信息包括文本，包括图像、视频，全部把它们看作一个 Token，这个 Token 可以理解为如果是一句话，它是一个字，如果是一张图的话，它有可能是图像里的一个区块，如果是视频的话，可能还会增加一个时间维度，一个三维的 trap，这样的话我们可以把所有的媒体统一成一种表达模式，这样可以最简单的模式去训练我们的多模态模型，所以我认为多模态也是要走 transformer 这条路的。

而 DiT 里面还包括了扩散模型这部分，而扩散模型这部分我觉得未来有可能会被代替，有可能做得更先进，比如它会做得更快，同时质量也会更好。

芦清林：我完全赞同，还有一个点，我觉得未来可能会变成一个自回归的网络结构，它可能会更简单粗暴一点。

只用看到一些前面的东西，下一个 Token 内容，不管是图片、视频、文本甚至是音频，理论上都可以通过这样的方法去做，如果大家能全部统一到这里，其实未来所有的模态统一就不是不可能的。

为什么现在还不是这样？目前包括算力还有一些数据的支撑可能还是不足的，还需要一定的技术发展，它的配套能力要足够强大的时候，这种完整的范式可能才会做得足够好。

问：视频用 DiT 很好理解，那么文生图从Stable Diffusion改成 DiT，它的价值在哪里？如果 DiT 有更好的可扩展性，具体来说相较于 Stable Diffusion 有什么不同？

芦清林：你刚才说视频用 DiT 其实是很好理解的，文生图从 Stable Diffusion 改成 DiT 完全是同一个道理，当我想生成一个更高质量和更大图片的时候，用 DiT 因为它有更好的扩展性，它的能力是更强，天花板更高，其实和视频是一样的，包括现在做视频也都是这样去做，甚至一些国外头部的公司他们图片和视频是一起做的，用一个模型输出。

问：可以理解成它可以生成的图片质量更高？

芦清林：不仅仅是这样，它的语义表达能力会更强，因为它的参数量未来会做得很大，所以它可以容纳的信息量就会更多。

问：DiT 模型是否更适合几十亿参数规模的训练，并且如果参数量较小，是否会影响其在视频处理方面的效果提升？

芦清林：刚好反过来，它未来的扩展空间非常大，它的扩展能力很强，所以它的天花板会更高，所以它做未来的图片和视频都能够有更好的表现。

问：一般认为参数量较小的模型消耗的算力较小，这种理解是否正确？另外，对于 15 亿参数或更大规模的视频大模型，是否更适合在 PC 上应用？

芦清林：从两个层面来解答这个问题：从参数量与算力消耗来看，将一个大参数量的模型减小参数量并不困难，可以通过牺牲一定的效果来实现更快的处理速度；从模型规模与应用场景来看，对于如何让一个小规模的模型在扩展时仍能发挥良好作用，目前还在探索阶段。而将大规模模型参数量减少以适应 PC 等平台的应用，相对而言是比较清晰的。

性能指标「最强」？

问：现在怎么定义在性能指标上「最强」？

芦清林：这个无非就是别人没有的，我们有，别人有的，我们更好一些。从别人没有这个点里说，目前 DiT 里没有一个中文原生开源的，过去由于我们做了非常多的在中文理解和表达上包括数学方面的一些工作，所以让模型在这方面有比较强的能力。这是第一个点，目前业界没有，所以相对来说也比较好说。

第二点，怎么去证明我们在其他的维度上更好。这个点我们会通过接近 20 多个维度去评估，这里展示的只是四个维度，包含语义的理解，能不能把一些细节的数量表达好，颜色表达好，空间位置表达好，这里面有非常多的维度。所以我们从所有的综合维度来评估，我们并没有非常明确的短板，以及我们在很多维度上面都会有一些优势，以至于综合评分我们会有比较高的一个能力。所以才会这么说。

问：刚才看到那个评分上，目前技术的水平可能和最顶尖的模型还有一定的差距，后续通过什么方式做加强，追赶？另外训练数据上怎么去迭代？

芦清林：在中文和英文语料上其实中文有天然劣势的，因为确实英文的语料非常非常丰富，以及质量更好，这块我们一直在补充。从去年的数据大概在 5-6 亿的图文费，今年已经扩充到 20 亿，未来我们会持续扩充。包括能把它筛选得更准确一些，让把更高质量的筛选出来，这是数据方面的工作。

第二个是模型方面的工作，模型方面目前是 15 亿的参数量，同时我们会尝试参数量更大的模型，因为它耗费的计算资源和时间会更长，目前还没有 ready，但是已经在做。

混元 DiT 对中国元素理解具有优势｜图片来源：混元官网

问：中文语料主要是从哪儿来的？

芦清林：我们这个地方也是费很大的力气去做这些工作的，包括开源数据做清洗，开源数据是这样做的，它的难点在于你能不能清洗好，以及标打好，这个是非常非常重的一些工作。包括我们内部也有很多有版权的素材，包括设计师这些都有，包括游戏，其实都有很多工作。

问：腾讯对于 AI 生成的版权是怎么看的？

芦清林：无论是从法律层面来说，还是从更加规范的管理层面来说，我们全部都会去遵循。

问：前段时间和字节聊，他们是先推出 6-7 个产品，然后发展一批种子用户，然后会根据种子用户的意见对产品进行调整，对算法进行优化，但是腾讯的思路好像是要更打磨技术，更打磨底层，这样的思路其实是有差异的？

芦清林：其实没有什么特别大的差异，因为腾讯里面内部的业务场景是非常非常多的，从游戏、广告、社交、内容产品、云所有的东西都有，几乎外部能感受到的它都有，所以不管是在内部打磨还是外部打磨，对于基础能力来说其实差别是不大的，因为我们需要的是用户的一个反馈，它是点踩还是点赞，这块他觉得哪里有问题，从我们的底层技术来说，这个反馈到底是对外部的客户来说，还是内部产品带来的，其实对我们来说是一样的。

如何发掘场景需求？

问：在游戏、广告、社交这些领域上有没有遇到一些场景问题，以及如何发掘场景的需求？

芦清林：这三个场景完全不一样，截然不同，因此我们有专门的团队针对每个场景进行深入研究和应用开发。

社交领域：

在社交场景中，我们可能会采用智能体的形式，通过包装成小型的互动玩法来促进社交传播。

举例来说，可以利用图像生成技术，如使用个人照片训练生成新的写真形象，这些更侧重于智能体的互动性。

游戏领域：

游戏制作流程复杂，从概念设计到最终的 3D 模型，涉及上百个步骤。

对于视觉和图像生成的需求各不相同，需要为每个步骤提供定制化的技术解决方案，以提高游戏生产的效率。