ECCV 2024 | 引入DiT的原生3D通用框架，适用任意神经场、秒级生成|3D|研究者_新浪科技

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

论文一作兰宇时为南洋理工大学（NTU）博士生，导师为 Chen Change Loy。本科毕业于北京邮电大学，目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。

在 ECCV 2024 中，来自南洋理工大学 S-Lab、上海 AI Lab 以及北京大学的研究者提出了一种原生 3D LDM 生成框架。具体来讲，他们针对现有原生 3D 生成模型可拓展性差、训练效率低、泛化性较差等问题，提出一种基于 3D VAE 和 3D-DiT 的两阶段通用 3D 生成框架 Latent Neural ﬁelds 3D Diffusion (LN3Diff)。该方法在 Objaverse 数据集上进行了大规模训练，并在多个基准测试中取得了优异成绩，并拥有更快的推理速度。

论文项目主页: https://nirvanalan.github.io/projects/ln3diff/
论文代码: https://github.com/NIRVANALAN/LN3Diff
Gradio demo 地址: https://huggingface.co/spaces/yslan/LN3Diff_I23D
个人主页: https://nirvanalan.github.io/
论文标题: LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

研究背景

近年来，以可微渲染和生成模型为核心的神经渲染技术 (Neural Rendering) 取得了很大的进展，并在新视角合成、3D 编辑和 3D 物体生成上取得了非常好的效果。然而，相较于统一图片 / 视频生成的 LDM 框架，基于 diffusion 模型的原生 3D 生成模型依然缺少通用的框架。

目前基于 SDS 蒸馏的方法受限于优化时长和饱和度较高的问题，而基于多视图生成 + Feedforward 重建的两阶段方法受限于多视图生成效果与多样性。这些限制极大地制约了 3D AIGC 的性能与自由度。

为了解决上述问题，研究者提出将基于 LDM (Latent Diffusion Model) 的原生生成框架引入 3D 生成，通过在 3D 隐空间直接进行 diffusion 采样来实现高效、高质量的 3D 资产生成。

方法

尽管之前的工作也尝试使用 LDM 直接进行 3D 生成，但受制于可拓展性、生成效率与在大数据上的泛化能力，并没有成为主流的 3D 生成方案。

因此，研究者提出 Latent Neural ﬁelds 3D Diffusion (LN3Diff)，一种适用于任意 Neural Fields 的通用 3D 生成框架，以实现高效、高质量、可控的 3D 生成。

3D-aware VAE : 高效信息压缩

首先，和图片 / 视频生成模型类似，3D 隐空间生成模型需要与之适配的 VAE 模型来实现高效的信息压缩。为了更好地兼容 3D 模态，相较于直接使用 SD VAE 模型来进行信息编码，本文选择在大规模 3D 数据上重新训练 3D-aware VAE 模型。

在编码器端，研究者选择 3D 物体的多视图 (multi-view images) 作为 3D VAE 的输入形式，以保留纹理建模能力并更好地兼容 2D 图像编码器的结构。同时将多视图图像、对应的深度图以及 Plucker 相机信息作为模型输入，并在 token 空间进行 3D-aware attention 运算以实现更好地 3D 一致性。

在解码器端，为了实现更优的信息压缩，研究者使用基于 3D-DiT 的 VAE 解码器。为了更好地支持 3D-aware 操作，在 3D-DiT 解码器端提出 Self-plane attention 与 Cross-plane attention 来使用注意力运算在 token 空间提升 3D-aware 表达能力。随后，3D-DiT 解码器输出的 tokens 会逐步上采样为 tri-plane, 并渲染成多视图来进行目标函数计算:

其中为多视图重建损失，

用于提升 3D 材质真实性。在实验数据上，研究者使用目前最大规模的开源 3D 数据集 Objaverse 来进行 VAE 训练，并公布了 DiT-L/2 尺寸的 VAE 预训练模型供用户使用。

为物体表面几何平滑约束，

为 VAE KL 约束，

DiT-based 3D Latent Diffusion Model: 通用 3D 生成框架

在第二阶段，研究者在训练完成的 3D VAE space 上进行 conditional 的 diffusion 训练。得益于 3D-VAE 强大的压缩性能与隐空间的通用性，他们可以直接在压缩得到的 3D latent space 上使用成熟的 conditional latent diffusion model 框架进行训练。

在 ShapeNet 等较小规模数据集上，研究者使用 U-Net 模型结构进行 image-conditioned 训练；在较大规模的 Objaverse 数据集上，研究者使用 3D-aware DiT 模型进行 image-condition 和 text-condition 两个版本的模型训练。得益于 3D latent space 高效的表达能力，使用有限的计算资源 (4xA100 80GB) 便可以实现高质量的 3D diffusion 训练，并将模型尺寸 scale up 至 DiT-L/2。