ICLR 2026 | 把视频扩散模型压到4bit,还能接近满血效果? QVGen让「超低比特视频生成量化」真正可用

ICLR 2026 | 把视频扩散模型压到4bit,还能接近满血效果? QVGen让「超低比特视频生成量化」真正可用
2026年02月25日 18:00 机器之心Pro

视频生成扩散模型越做越大:2B、5B、14B…… 效果提升很快,但训练与推理的成本也随之飙升。社区一直希望用量化把模型 “压小”,把显存和算力成本打下来,真正落到更多卡、更便宜的机器、更多真实应用中。可现实很残酷:一到 3/4 bit,视频生成的量化感知训练(QAT)往往比图像更难训、更不稳定,质量掉得更狠 —— 不是 “略降一点”,而是直接不可用。

图表 1 在 CogVideoX-2B 模型上 4-bit 逐通道权重量化与逐 token 激活量化的效果对比。(a)原始模型;(b)该论文所提出方案;(c-e)已有的量化感知训练方案;(f)已有的后训练量化方案。

香港科技大学 & 北航 & 商汤等提出了一个专门面向视频生成扩散模型的 QAT 范式 ——QVGen,在 3-bit / 4-bit 都能把质量拉回来,并且让 4-bit 首次接近全精度表现成为现实。该论文现已被 ICLR 高分接收:rebuttal 前 88666(top 1.4%),rebuttal 后 88886 (top 0.5%)。

  • 论文地址:https://arxiv.org/pdf/2505.11497 

  • 代码地址:https://github.com/ModelTC/QVGen

  • 模型地址:https://huggingface.co/collections/Harahan/qvgen

图表 2 QVGen 论文框架图。图表 2 QVGen 论文框架图。

为什么视频扩散模型一量化就容易 “崩”?

QVGen 的切入点很直接:视频生成的 QAT 并不是把图像扩散的配方照搬过来就行。作者在论文里给了一个关键观察(见图表 3):在相近规模、相似训练设置下,视频扩散模型的梯度范数明显更大,这会让优化过程更不稳定,最终导致低比特训练难以收敛、生成质量难以维持。

换句话说,如果不先解决 “训练不稳” 这个根因,只靠常见量化技巧做修补,视频生成很难真正落地。

图表 3 第一行为已有方案(蓝色)与论文方案(黄色)在量化感知训练中的梯度范数比较;第二行为损失比较。左右分别为 CogVideoX-2B 和 Wan 1.3B 模型上的可视化。

QVGen 做对了什么:先把训练救稳,再把推理成本 “还回去”

QVGen 的核心思路是 “训练期做增强、推理期不背包袱”,它把一个看似矛盾的目标拆成了两步来解决 (见图表 2)。

第一步,训练阶段引入一个辅助模块 Φ。这个模块不是为了让推理更重,而是为了在低比特条件下降低梯度范数、提升训练稳定性,让 3/4-bit 的 QAT 先 “训得动、训得好”。此外,除了图表 3 中的实验论证,在论文中还提供了详细的理论证明。

第二步,训练过程中逐步移除 Φ,让最终推理阶段不再依赖这个模块。作者的观察是:随着训练推进,Φ 的参数里会逐渐出现越来越多 “贡献很小” 的成分。于是论文设计了 rank-decay:反复做分解,识别低影响的分量,并用基于秩的正则把这些分量逐步衰减到 0,直到 Φ 被完全消掉。最终效果是:推理阶段几乎不增加额外开销,但训练阶段又能获得稳定性红利。

结果有多硬:4-bit 接近全精度,3-bit 也把指标拉回 “可用区间”

在主实验中,QVGen 在 W4A4/W3A3 的设置下对比了多类量化方法。论文给出的结论很清晰:很多方法在 4-bit 下仍有明显退化,到了 3-bit 更加明显;QVGen 在 3-bit 能大幅恢复质量,在 4-bit 则可以做到接近全精度(见图表 4)。

更关键的是,它不只在小模型上有效。论文还展示了在更大的视频生成模型上(例如 5B、14B 级别,以及更高分辨率设置),4-bit 仍能保持接近全精度的总体水平(见图表 5-6)。

该论文同时给出了大量定性样例证明 “不是只在指标上好看” (见图表 7-8)。

图表 4 对于 Wan 1.3B 和 CogVideoX-2B 模型,QVGen 与已有方案在 VBench 上的性能比较。

图表 5 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench 结果。图表 5 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench 结果。

图表 6 QVGen 在 Wan 14B 和 CogVideoX-5B 模型上的 VBench-2.0 结果。

图表 7 QVGen 与已有方案在 Wan 1.3B 上的可视化结果对比。

图表 8 QVGen 在 Wan 14B 上的可视化结果。图表 8 QVGen 在 Wan 14B 上的可视化结果。

不只是省显存:它能带来真实加速,还能和其他加速方法叠加

对部署来说,低比特的直接好处是显存下降。论文报告量化后能够带来大幅的内存节省(例如 4× 级别的压缩量级),从而让同样的模型更容易跑在更小的卡上,或者把 batch、分辨率等配置拉高。

更实际的一点是:QVGen 使用标准的均匀量化思路,意味着它可以更容易对接现有的 W4A4 推理内核。论文也强调它和其他视频生成加速方向是正交的:例如与某些 3D attention 加速方案叠加后,推理速度还能进一步提升(见图表 9)。

图表 9 (左)模型大小对比; (中)模型加速对比;(右)与 attention 加速方案结合后加速对比。其中蓝色代表 Wan 1.3B 模型,黄色代表 Wan 14B 模型。

训练成本会不会更高?论文给出的答案是 “几乎不多花”

很多读者会担心:训练期加了 Φ、还要做 rank-decay,会不会导致训练成本暴涨?论文做了训练效率分析,结论是:相对一些蒸馏式 QAT 基线,QVGen 的额外训练开销很小(例如 GPU-days、峰值显存几乎不变的量级),但在最终生成质量上仍能拉开明显差距(见图表 10)。

图表 10 QVGen 与已有方法的训练时间和训练显存开销对比。图表 10 QVGen 与已有方法的训练时间和训练显存开销对比。

总结:视频扩散也能 4bit 接近满血,先稳训练再轻推理!

当下视频生成扩散模型越来越大,但 3/4-bit 量化一落到视频上,常见问题是:QAT 训练不稳定、收敛困难、画质明显下滑。QVGen 的核心判断很直接:视频低比特量化的关键不只是 “怎么量化”,而是先把训练稳定性问题解决,否则再好的量化细节也很难落地。

在这一点上,QVGen 给出了一套完整范式,主要包括:

  • 训练期引入辅助模块 Φ:用于降低梯度范数、提升低比特 QAT 的稳定性,让 3/4-bit 训练 “跑得起来、训得下去”;

  • rank-decay 逐步移除 Φ:训练过程中识别并衰减低贡献成分,最终把 Φ 完全去掉,使推理阶段几乎不背额外负担;

  • 面向部署的低比特设置:支持 W4A4/W3A3,并强调可对接现有推理实现;在显存上带来明显下降,同时还能与其他推理加速方法叠加。

总体来看,QVGen 在 CogVideoX、Wan 等视频扩散模型上实现了 4-bit 接近全精度、3-bit 也能把质量拉回可用区间的结果,并且训练额外开销很小。对希望把视频生成模型从 “贵且难跑” 推进到 “更省、更快、更好用” 的场景,这是一条很实用的路线。

推理比特
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片