压缩之外,Visual Tokenizer 也要理解世界?

压缩之外,Visual Tokenizer 也要理解世界?
2025年12月28日 09:30 机器之心Pro

机器之心PRO · 会员通讯 Week 52

--- 本周为您解读值得细品的 AI & Robotics 业内要事 ---

1.压缩之外,Visual Tokenizer 也要理解世界?

Visual Tokenizer 下一步进化的关键在于理解世界?相比 2D 网格序列,采用 1D 序列形式的 tokenizer 更适合大规模训练?也许目前的离散 tokenizer 可能只是阶段性的过渡性方案?生成采样阶段的分布偏移,导致了「重建强、生成弱」的普遍现象?离散 tokenizer 如何在不牺牲压缩效率的前提下超过连续潜在空间的重建质量?...

2. Demis Hassabis 深度访谈:为什么做 AGI 需要回到「AlphaGo 模式」?

什么是「锯齿状智能」?为什么 AGI 需要回到「AlphaGo」模式?SIMA 与 Genie 如何协同「好奇心」创造无限训练资源?如何通过「物理基准测试」消除模拟世界的幻觉?「根节点问题」如何产生连锁反应?AGI 会如何推动经济重构?...

本期完整版通讯含 2 项专题解读 + 24 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 10 项,国外方面 5 项。

本期通讯总计 20946 字,可免费试读至 10% 

 消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元) 

要事解读① 压缩之外,Visual Tokenizer 也要理解世界?

引言:近期,MiniMax 在发布招股书之外,开源的 VTP 工作也引发了业内热议。VTP 进一步关注了「重建更准不等于生成更好」的问题,也为视觉 tokenizer 的研究提供了一个新的视角。或许当视觉 tokenizer 的 Scaling Law 被证明可行之后,视觉生成模型的能力可能还会「再上一个台阶」。

MiniMax 新研究引起热议,视频生成模型 scale 之路的关键问题或是 Visual Tokenizer ?

1、近期,MiniMax 和华中科技大学的研究者发布了一项有关视觉 tokenizer 的新研究 VTP(Visual Tokenizer Pre-training),引发了业界热议。[1-1]

① 传统的视觉生成模型通常分为两步:先通过 tokenizer(如 VAE)压缩图像,后在潜空间(Latent Space)训练生成模型。

② 过去的研究发现,如果第一阶段的 tokenizer 质量没有提升,即使无限增加上述第二阶段(如 DiT)的算力,生成效果会很快达到饱和。

2、该研究提供了一个不同以往的视角,即提升生成模型性能,不仅可以依赖主模型的扩展,也可以通过扩展 tokenizer 来实现。[1-1]

3、业内以往的常见做法是在扩散模型框架中训练一个 VAE 作为图像离散表示工具,然后固定该 VAE,再专注于扩大小模型(如扩散 Transformer)的规模。[1-2]

4、然而研究者发现,如果仅追求像素级重建的精度,投入更多算力让自编码器重建得更逼真,可能会降低下游生成质量。[1-1]

5、此次的 VTP 工作通过实验在一定程度上揭示了问题根源,即传统仅以重建为目标训练的视觉 tokenizer,其潜在空间偏向低层次像素信息,缺乏对高层语义的简洁表示。而扩散模型对这种低级细节并不敏感,导致更强的重建能力并未转化为更好的生成能力。[1-1]

6、为解决上述问题,研究者进一步提出需要在 tokenizer 预训练中引入语义理解,让 latent 表示对高级语义信息更敏感,而不过度记忆像素细节。[1-1]

7、此外,研究者也发现了 visual tokenizer 的 Scaling Law 现象,即传统自编码器在预训练算力达到一定规模后,性能基本停滞,而 VTP 的性能会持续提升。[1-1]

① 在实验中,普通 VAE 在使用不到原来十分之一的计算量时就会达到生成性能瓶颈,而 VTP 即使将预训练计算量提高 10 倍,生成效果仍在不断变好。[1-1]

8、这项工作在热度之中也有一些争议,外媒一位分析师指出,该研究未系统探讨 VTP 如何与不同的 DiT 架构交互,且实验采用的是特定配置,不明确语义潜在空间是否对 flow matching 和 rectified flowd 等方法同样有效。[1-2]

9、但整体来说,VTP 工作为视觉 tokenizer 的研究提供了一个新的视角,当视觉 tokenizer 的 Scaling Law 被证明可行之后,视觉生成模型的能力可能还会「再上一个台阶」。

「重建好不等于生成好」,tokenizer 语义理解加强方面,近期有哪些值得关注的实践发现?

1、具体而言,VTP 框架将图像-文本对比学习(如 CLIP)、自监督学习(如 DINOv2)和传统的重建损失结合起来,统一优化视觉 tokenizer 的潜在空间,使其同时具备高层语义理解能力和细节重建能力。[1-1]

2、细节上,VTP 框架在保留轻量级重建损失来确保视觉保真度的同时,引入了两项语义导向任务:

① 一是基于 DINOv2 的自监督损失,通过掩码图像建模与自蒸馏机制,使潜在表示在局部空间结构和全局语义一致性上得到了增强。

② 二是基于 CLIP 风格的图像-文本对比损失,利用大规模图文配对数据,将语言先验显式注入视觉潜在空间,提升其对高级语义的敏感度。

③ 整体目标函数为三项损失的加权和,训练过程在 ViT-L 框架的 64 维瓶颈处统一优化。

④ 同时为了为兼顾对比学习对大 batch 的需求和计算效率,研究者在实现中采用了分层采样策略,图文对比任务使用 16 K 大 batch,而自监督与重建任务分别使用 4 K 与 2 K 小 batch。

3、实验表明,潜在空间的语义质量(用零样本分类准确率度量)与生成性能(FID 指标)呈高度正相关,当 tokenizer latent 更善于表征语义概念时,下游生成效果显著提升。[1-1]

① 在 ImageNet 上,VTP 最大模型(约 7 亿参数)达到了 78.2%的零样本分类准确率,同时其压缩重建保真度 rFID=0.36,与一些专门表征学习模型性能相当。

② 此外,在不改变扩散模型结构和计算量的情况下,将该 tokenizer 替换进标准扩散模型训练后,生成图像的 FID 相对基准降低了 65.8%,收敛速度提升了约 4 倍。

③ 这意味着,仅通过在 tokenizer 预训练上投入更多算力,就能大幅提升下游的生成质量,而不需要额外增加生成模型的复杂度。

4、VTP 的「重建好不等于生成好」的研究思路也并非是孤立的,此前也有一些工作提出了不同的解决方案。

图像
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片