ICLR 2026 | 把视频扩散模型压到4bit，还能接近满血效果？ QVGen让「超低比特视频生成量化」真正可用|推理|比特_新浪科技

视频生成扩散模型越做越大：2B、5B、14B…… 效果提升很快，但训练与推理的成本也随之飙升。社区一直希望用量化把模型 “压小”，把显存和算力成本打下来，真正落到更多卡、更便宜的机器、更多真实应用中。可现实很残酷：一到 3/4 bit，视频生成的量化感知训练（QAT）往往比图像更难训、更不稳定，质量掉得更狠 —— 不是 “略降一点”，而是直接不可用。

图表 1 在 CogVideoX-2B 模型上 4-bit 逐通道权重量化与逐 token 激活量化的效果对比。（a）原始模型；（b）该论文所提出方案；（c-e）已有的量化感知训练方案；（f）已有的后训练量化方案。

香港科技大学 & 北航 & 商汤等提出了一个专门面向视频生成扩散模型的 QAT 范式 ——QVGen，在 3-bit / 4-bit 都能把质量拉回来，并且让 4-bit 首次接近全精度表现成为现实。该论文现已被 ICLR 高分接收：rebuttal 前 88666（top 1.4%），rebuttal 后 88886 （top 0.5%）。

论文地址：https://arxiv.org/pdf/2505.11497
代码地址：https://github.com/ModelTC/QVGen
模型地址：https://huggingface.co/collections/Harahan/qvgen

图表 2 QVGen 论文框架图。

为什么视频扩散模型一量化就容易 “崩”？

QVGen 的切入点很直接：视频生成的 QAT 并不是把图像扩散的配方照搬过来就行。作者在论文里给了一个关键观察（见图表 3）：在相近规模、相似训练设置下，视频扩散模型的梯度范数明显更大，这会让优化过程更不稳定，最终导致低比特训练难以收敛、生成质量难以维持。

换句话说，如果不先解决 “训练不稳” 这个根因，只靠常见量化技巧做修补，视频生成很难真正落地。

图表 3 第一行为已有方案（蓝色）与论文方案（黄色）在量化感知训练中的梯度范数比较；第二行为损失比较。左右分别为 CogVideoX-2B 和 Wan 1.3B 模型上的可视化。

QVGen 做对了什么：先把训练救稳，再把推理成本 “还回去”

QVGen 的核心思路是 “训练期做增强、推理期不背包袱”，它把一个看似矛盾的目标拆成了两步来解决（见图表 2）。

第一步，训练阶段引入一个辅助模块 Φ。这个模块不是为了让推理更重，而是为了在低比特条件下降低梯度范数、提升训练稳定性，让 3/4-bit 的 QAT 先 “训得动、训得好”。此外，除了图表 3 中的实验论证，在论文中还提供了详细的理论证明。

第二步，训练过程中逐步移除 Φ，让最终推理阶段不再依赖这个模块。作者的观察是：随着训练推进，Φ 的参数里会逐渐出现越来越多 “贡献很小” 的成分。于是论文设计了 rank-decay：反复做分解，识别低影响的分量，并用基于秩的正则把这些分量逐步衰减到 0，直到 Φ 被完全消掉。最终效果是：推理阶段几乎不增加额外开销，但训练阶段又能获得稳定性红利。

结果有多硬：4-bit 接近全精度，3-bit 也把指标拉回 “可用区间”

在主实验中，QVGen 在 W4A4/W3A3 的设置下对比了多类量化方法。论文给出的结论很清晰：很多方法在 4-bit 下仍有明显退化，到了 3-bit 更加明显；QVGen 在 3-bit 能大幅恢复质量，在 4-bit 则可以做到接近全精度（见图表 4）。

更关键的是，它不只在小模型上有效。论文还展示了在更大的视频生成模型上（例如 5B、14B 级别，以及更高分辨率设置），4-bit 仍能保持接近全精度的总体水平（见图表 5-6）。

该论文同时给出了大量定性样例证明 “不是只在指标上好看” （见图表 7-8）。