英伟达与MIT联合开发音频生成新技术|英伟达_新浪科技

近日，一项由英伟达与麻省理工学院联合开发的新技术引发关注。该技术名为 Audio-SDS，是一种基于文本条件的音频扩散模型扩展方法，首次将 Score Distillation Sampling（SDS）应用于音频生成领域。

近年来，音频扩散模型在生成高质量音频方面展现了强大的能力，但其在优化具有明确语义和可解释性的参数方面仍存在局限。新提出的 Audio-SDS 方法，通过融合预训练模型的强大生成能力与参数化音频表示手段，突破了这一限制。

该方法无需依赖大规模特定任务的数据集，即可灵活运用于多种音频处理任务，包括 FM 合成器参数校准、物理冲击音效合成以及音源分离等关键场景。借助 SDS 方法，用户能够根据高级文本提示，直接调整 FM 合成参数、冲击音模拟器设置或分离掩码，实现更加直观和高效的音频编辑。

研究团队采用了基于解码器的 SDS 架构、多步去噪机制及多尺度频谱图分析等技术进行实验验证。结果显示，Audio-SDS 在主观听感测试及多项客观评价指标（如 CLAP 分数和信号失真比 SDR）上均表现出色。

Audio-SDS 的一大优势在于，它通过一个统一的预训练模型支持多种音频任务，避免了对大量任务专属数据集的依赖，为音频生成与编辑提供了一种更具通用性的解决方案。尽管如此，研究者也指出，该方法在模型覆盖范围、潜在编码伪影以及优化稳定性等方面，仍有改进空间。

这项技术的提出，为音频生成领域带来了新的思路，也为未来更高效、更灵活的音频内容创作提供了可能。

关键词 : 英伟达

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻，精彩的震撼图片

英伟达与MIT联合开发音频生成新技术