舍弃 VAE，预训练语义编码器能让 Diffusion 走得更远吗？|图像_新浪科技

机器之心PRO · 会员通讯 Week 44

--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---

1.舍弃 VAE，预训练语义编码器能让 Diffusion 走得更远吗？

为什么流行的 VAE 是 Diffusion 的瓶颈？舍弃 VAE 的 DiT 有哪些做法？用预训练视觉模型作为语义编码器有何优势？高维潜空间如何适配 DiT？用 RAE 和 SVG 的思路革新 Diffusion 范式还有哪些坑要过？...

2. 语言先验「基础过强」，MLLMs 视觉衰减有何解？

文本主导性跨越图像、视频、音频等不同模态，成为了 MLLMs 的普遍缺陷？当推理链延长，模型的注意力如何从视觉 Token「迁移」至语言 Token？「跨模态连接值」的指数衰减定律如何影响描述视觉信息在深层架构中的失效？双通道注意力对齐通过什么机制来消除模态间的不一致？VAR 如何确保所有推理都基于可追溯的视觉事实？...

3. 「懒惰且富有」成 AI 时代黄金商业法则，LinkedIn 创始人 Reid Hoffman 押宝「原子世界」？

为什么霍夫曼断言「万物皆可软件化」是硅谷的致命盲区？AI 时代的「贪婪与懒惰」法则，如何终结 Web 2.0 时代「先烧钱、后盈利」的传统路径？顶尖 LLM 只能给出 B- 级共识，这种现象是否意味着人类专家的价值已从「知识储存库」转移到了「反共识」思维？...

本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递，其中技术方面 10 项，国内方面 9 项，国外方面 10 项。

本期通讯总计 26113 字，可免费试读至 7%

消耗 288 微信豆可兑换完整本期解读（约合人民币 28.8 元）

要事解读① 舍弃 VAE，预训练语义编码器能让 Diffusion 走得更远吗？

引言：纽约大学谢赛宁团队、清华&快手 Kling 团队的研究者同期提出的「RAE」和「SVG」工作均指出 VAE 对当前 Diffusion 范式的制约，并提出利用预训练的视觉模型作为语义编码器的改进方案，进而引起了 AI 社区对这种「以表征为中心」的范式的讨论。

扩散模型的范式发展下，VAE 已经不够用了？

1、近年来，Latent 扩散模型（LDMs）已成为视觉生成领域的主流范式，其核心依赖于一个预训练的变分自编码器（Variational Autoencoder， VAE）将高维像素数据压缩至紧凑的潜空间。[1-1]

① 该范式包含两个核心阶段：首先，一个预训练的 VAE 将图像编码为一个紧凑的 Latent 表征；随后由一个扩散模型（通常是基于 Transformer 的架构，如 DiT）在该潜空间中学习逆转一个逐步加噪的过程。

2、随着生成模型从静态图像向视频、3D 内容乃至机器人动作等更高维度、多模态领域拓展，当前「VAE+扩散」的两阶段范式下，泛用但陈旧的自编码器架构（SD-VAE）已成为限制下一代生成模型能力飞跃的主要瓶颈。[1-2]

① 计算成本方面，VAE 的负担极为沉重。以 Stable Diffusion 2.1 为例，其 VAE 编码器在处理高分辨率图像时需要 135.59 GFLOPs 的计算量，甚至超过了其核心的扩散 U-Net 网络所需的 86.37 GFLOPs。

② VAE 的核心训练目标是像素级的重建，这种设计使其善于保留局部纹理细节，但忽略了语义结构，其结果是一个「语义纠缠」的潜空间，不同类别的对象特征在空间中混乱地混合在一起，缺乏清晰的边界和聚类结构。

③ 这种激进的压缩策略导致不可逆的细节信息丢失，构成了生成质量的「保真度瓶颈」；而潜空间缺乏清晰的语义结构，即「语义纠缠」问题，这使得扩散模型的训练过程变得低效且不稳定。

④ 在此之上，VAE 的潜空间由于表征质量的缺陷，几乎无法被迁移到图像分类、分割或检测等更广泛的视觉任务中，导致生成与判别依赖于完全不同的视觉表征体系，难以支持构建生成、感知和理解的统一视觉基础模型。

3、在此趋势下，近期纽约大学谢赛宁团队的「RAE」和清华&快手团队「SVG」两项工作均选择弃用 VAE，将其替换为预训练语义编码器（如 DINO、MAE）来构，解决传统范式在潜空间语义纠缠、计算效率低、生成与感知任务割裂等问题。[1-2] [1-3]

① RAE 提供了一个通用框架，通过将任意冻结的预训练语义编码器与一个轻量级解码器配对，将扩散模型引入了高维但语义丰富的潜空间。

② SVG 则提出了一种具体的、完全无 VAE 的架构，通过融合冻结的 DINOv3 语义主干和专用于捕捉细节的残差分支，构建了一个兼具语义判别性与重构保真度的统一表征空间。

4、「RAE」和「SVG」的思路在于将扩散模型从「压缩优先」转为「语义优先」，通过继承预训练基础模型已经拥有的、语义丰富的表征空间，进而解锁更优的效率、生成质量和任务通用性。

同一思路下的两种路线，预训练语义编码器如何影响 Diffusion 架构？[1-2] [1-3]

1、RAE 和 SVG 两种方法虽然实现路径不同，但出发点都是利用在海量数据上预训练的视觉基础模型所提供的强大先验知识。

2、RAE 的核心思想是「表征优先」，不再试图让一个自编码器同时承担压缩和表征学习两个任务，通过直接「继承」预训练语义编码器的强大表征能力，从根本上填补了 AE 的语义鸿沟。

关键词 : 图像

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

专题

官方微博

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

舍弃 VAE，预训练语义编码器能让 Diffusion 走得更远吗？

创事记

阅读排行榜

评论排行榜

科学探索

科学大家

苹果汇

众测

来电聊

专题

官方微博

公众号