科学家将状态空间模型引入语音分离领域,能自动从视频中分离不同人物对白

科学家将状态空间模型引入语音分离领域,能自动从视频中分离不同人物对白
2024年06月12日 14:57 DeepTech深科技

来源:DeepTech深科技

据介绍,当前最新发布的状态空间模型模型比如 Mamba,具备以线性计算复杂度建立长程依赖关系的优势,非常适合高效处理长序列的任务。

尽管 Mamba 在自然语言处理和计算机视觉等领域已经展现了良好的效果,但在语音分离领域其潜力尚未被充分挖掘。

据了解,基于卷积神经网络 CNN,Convolutional Neural Networks)的语音分离模型,受限于其局部感受野,限制了其捕获音频信号全部上下文的能力,从而影响了分离性能。

而基于 Transformer 的模型虽然能够很好地建模长期依赖关系,但其自注意力机制相对于序列长度有平方级的复杂度,导致其在实时应用中计算成本很高。

总的来说,现有的 CNN、循环神经网络(RNN,Recurrent Neural Network)和 Transformer 方法在计算效率和捕获时间依赖性方面各有优缺点。

基于此,清华大学团队提出了一种新的语音分离模型架构 SPMamba,将 Mamba 巧妙地整合进语音处理中,借此将状态空间模型(SSMs,State Space Models)成功引入语音分离领域。

(来源:arXiv)(来源:arXiv

SPMamba 以 TF-GridNet 为基础,使用双向 Mamba 模块替换其中的 Transformer 成分,旨在显著增强模型理解和处理音频序列庞大上下文的能力。

从而能够克服 CNN 模型处理长序列音频的局限、以及 RNN 模型固有的计算效率低下问题。

通过本次研究,课题组旨在探索状态空间模型模型尤其是 Mamba 在语音分离任务中的潜力,以期设计出一种计算高效且性能出色的语音分离模型架构。

同时,也希望借此推动基于状态空间模型的音频处理模型的进一步研究和发展。

基于状态空间模型的语音分离模型 SPMamba,能够以较低复杂度获得更好的分离性能,并且更适合于长音频处理。

据介绍,该模型能够高效准确地从混合语音信号中分离出不同说话人的语音,这为智能语音助手、语音会议系统等应用提供技术支撑。

通过 SPMamba 增强语音清晰度和可理解性,可以大幅提升这些系统在嘈杂环境下的性能表现和用户体验。

同时,由于能够更好处理长音频,SPMamba 可以用于音视频内容创作,例如自动从视频中分离出不同人物的对白、背景音乐等,方便后期编辑和处理。

此外,语音分离技术对于犯罪调查、法庭审讯等领域也具有重要应用价值,可协助分析和还原案件现场的语音证据。

SPMamba 模型的高分离精度和计算效率优势,使其在这些实际应用场景中极具发展潜力。

与此同时,本次成果也为语音增强、语音识别等其他语音处理任务提供了新方法。

研究人员表示:“我们一开始确定这个研究思路,是发现在自然语言处理领域,名为 Mamba 的状态空间模型在处理长序列任务时表现出色,效率和性能都优于其他模型。”

(来源:arXiv)(来源:arXiv

清华大学硕士生李凯是第一作者,清华大学硕士生陈果为共同第一作者。

图 | 李凯(来源:李凯)图 | 李凯(来源:李凯)

而在论文尚未发在 arXiv 之前,该团队决定提前一周公开代码。

“没想到,这一举动引起了许多研究者的关注,大家纷纷来询问技术细节以及讨论模型的创新点。”该团队表示。

此外,当研究人员在韩国参加 2024 年国际声学、语音与信号处理会议(ICASSP,International Conference on Acoustics, Speech and Signal Processing)会议期间,很多国内外同行专门找该团队讨论 SPMamba 模型。

“当看到自己的工作得到认可,大家研究热情也被激发起来,我也感到由衷的欣慰和自豪。那一刻,我才真正体会到科研工作者的意义所在。”研究人员表示。

而基于 SPMamba 在语音分离任务上取得的优异表现,他们计划进一步探索和扩展该模型的应用范围。

首先,课题组将在更多公开数据集上进行实验和测试,以全面评估 SPMamba 的泛化能力和鲁棒性。

这将有助于验证模型在不同场景和数据条件下的性能表现,为实际应用提供更可靠的参考。

其次,该团队计划在音乐领域进行尝试,特别是在 MUSDB18-HQ 数据集上测试 SPMamba 处理长序列音频的能力。

音乐信号通常具有更长的持续时间和更复杂的结构,这会给模型的建模能力提出更高的要求。

通过在音乐分离任务上的实验,将能进一步挖掘 SPMamba 在捕捉长期依赖关系方面的潜力。

此外,他们也将考虑将 SPMamba 应用于其他相关任务,如语音增强和说话人提取。

据了解,语音增强旨在从嘈杂的环境中提取清晰的语音,而说话人提取则关注于从混合语音中分离出目标说话人的声音。

这些任务与语音分离有着相似的特点,因此 SPMamba 有望在这些领域取得同样出色的表现。

总的来说,他们致力于在更多的数据集和任务上验证该模型的有效性,通过不断优化模型结构,以期在更广泛的音频处理领域取得新突破。

参考资料:

1.https://arxiv.org/pdf/2404.02063

运营/排版:何晨龙

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片