英伟达与MIT联合开发音频生成新技术

英伟达与MIT联合开发音频生成新技术
2025年05月13日 14:40 中关村在线

近日,一项由英伟达与麻省理工学院联合开发的新技术引发关注。该技术名为 Audio-SDS,是一种基于文本条件的音频扩散模型扩展方法,首次将 Score Distillation Sampling(SDS)应用于音频生成领域。

近年来,音频扩散模型在生成高质量音频方面展现了强大的能力,但其在优化具有明确语义和可解释性的参数方面仍存在局限。新提出的 Audio-SDS 方法,通过融合预训练模型的强大生成能力与参数化音频表示手段,突破了这一限制。

该方法无需依赖大规模特定任务的数据集,即可灵活运用于多种音频处理任务,包括 FM 合成器参数校准、物理冲击音效合成以及音源分离等关键场景。借助 SDS 方法,用户能够根据高级文本提示,直接调整 FM 合成参数、冲击音模拟器设置或分离掩码,实现更加直观和高效的音频编辑。

研究团队采用了基于解码器的 SDS 架构、多步去噪机制及多尺度频谱图分析等技术进行实验验证。结果显示,Audio-SDS 在主观听感测试及多项客观评价指标(如 CLAP 分数和信号失真比 SDR)上均表现出色。

Audio-SDS 的一大优势在于,它通过一个统一的预训练模型支持多种音频任务,避免了对大量任务专属数据集的依赖,为音频生成与编辑提供了一种更具通用性的解决方案。尽管如此,研究者也指出,该方法在模型覆盖范围、潜在编码伪影以及优化稳定性等方面,仍有改进空间。

这项技术的提出,为音频生成领域带来了新的思路,也为未来更高效、更灵活的音频内容创作提供了可能。

英伟达
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片