单张图像探索3D奇境：Wonderland让高质量3D场景生成更高效|3D_新浪财经

本文的主要作者来自多伦多大学、Snap Inc.和UCLA的研究团队。第一作者为多伦多大学博士生梁汉文和Snap Inc.的曹军力，他们专注于视频生成以及3D/4D场景生成与重建的研究，致力于创造更加真实、高质量的3D和4D场景。团队成员期待与更多志同道合的研究者们交流与合作。

在人类的认知中，从单张图像中感知并想象三维世界是一项天然的能力。我们能直观地估算距离、形状，猜想被遮挡区域的几何信息。然而，将这一复杂的认知过程赋予机器却充满挑战。最近，来自多伦多大学、Snap Inc. 和 UCLA 的研究团队推出了全新的模型 ——Wonderland，它能够从单张图像生成高质量、广范围的 3D 场景，在单视图 3D 场景生成领域取得了突破性进展。

技术突破：从单张图像到三维世界的关键创新

传统的 3D 重建技术往往依赖于多视角数据或逐个场景 (per-scene) 的优化，且在处理背景和不可见区域时容易失真。为解决这些问题，Wonderland 创新性地结合视频生成模型和大规模 3D 重建模型，实现了高效高质量的大规模 3D 场景生成：

效果展示 — 视频生成

基于单张图和 camera condition，实现视频生成的精准视角控制：

Camera-guided 视频生成模型可以精确地遵循轨迹的条件，生成 3D-geometry 一致的高质量视频，并具有很强的泛化性，可以遵循各种复杂的轨迹，并适用于各种风格的输入图片。

更多的例子：

不同的输入图片，同样的三条相机轨迹，生成的视频：

给定输入图片和多条相机轨迹，生成视频可以深度地探索场景：

效果展示 —3D 场景生成

基于单张图，利用 LaLRM, Wonderland 可以生成高质量的、广阔的 3D 场景：

(以下展示均为从建立的3DGS Rendering出的结果)

基于单张图和多条相机轨迹，Wonderland 可以深度探索和生成高质量的、广阔的 3D 场景：

卓越性能：在视觉质量和生成效率等多个维度上表现卓越

Wonderland 的主要特点在于其精确的视角控制、卓越的场景生成质量、生成的高效性和广泛的适用性。实验结果显示，该模型在多个数据集上的表现超越现有方法，包括视频生成的视角控制、视频生成的视觉质量、3D 重建的几何一致性和渲染的图像质量、以及端到端的生成速度均取得了优异的表现：

应用场景：视频和 3D 场景内容创作的新工具

Wonderland 的出现为视频和 3D 场景的创作提供了一种崭新的解决方案。在建筑设计、虚拟现实、影视特效以及游戏开发等领域，该技术展现了广阔的应用潜力。通过其精准的视频位姿控制和具备广视角、高清晰度的 3D 场景生成能力，Wonderland 能够满足复杂场景中对高质量内容的需求，为创作者带来更多可能性。

未来展望

尽管模型表现优异，Wonderland 研发团队深知仍有许多值得提升和探索的方向。例如，进一步优化对动态场景的适配能力、提升对真实场景细节的还原度等，都是未来努力的重点。希望通过不断改进和完善，让这一研发思路不仅推动单视图 3D 场景生成技术的进步，也能为视频生成与 3D 技术在实际应用中的广泛普及贡献力量。

文中视频链接：https://mp.weixin.qq.com/s/ViSQcx3UNLjRb7goIRhQFg?token=593940781&lang=zh_CN