科技首页创事记互联网电信 IT业界投稿

仅数百参数，Google发布「最小偏差」音频分类前端LEAF

2021-01-27 13:28:41 创事记作者：

来源：新智元

在机器学习中，梅尔滤波器组(Mel-filterbank)这种固定的、手工制作的声音表示，经常被用于训练声音分类算法中。

在它出现几十年后，研究表明，它们表现出了适合表示学习的数学特性;

换句话说，它们代表了强大的音频特征。

但是Mel-filterbank的设计也存在偏差，而这些偏差，对于在高频率下需要细粒度分辨率的任务来说，是有害的。

为了解决这一问题，向人工智能替代领域迈进，谷歌的研究人员开发了「LEAF」。

该前端将Mel滤波器组分解为了几个成分——过滤、池化和压缩/标准化，来创建具有最小偏差的音频分类模型。

研究人员称，LEAF可以学习到一组性能优于Mel-filterbank的参数，这表明，LEAF可以用于通用音频分类任务。

目前，该文章已经在ICLR2021上正式登出。

声音识别市场庞大，LEAF应运而出，涵盖八大分类问题

根据Grand View Research的数据，我们可以发现，到2018年，全球声音识别市场的价值已经达到了6650万美元，因此，LEAF的产生非常具有现实意义。

除了在语音识别领域的用处，听觉能力本身也已经成为人工智能的关键：

声音可以使AI能够理解环境，并区分环境中发生的各种事件。

例如，如果有人入侵，带有AI驱动的声音感应技术的事件管理系统会打开灯，并大声播放音乐来阻止入侵，同时，它还会向住户发送警报。

图：Amazon的Echo Dot

而LEAF的出现，为这类产品的生产无遗提供了极大便利。

在实验中，研究人员使用LEAF开发了八种不同分类问题的独立单任务监督模型：

这八种分类问题包括了声音场景分类、鸟鸣检测、情感识别、说话人识别、乐器和音高检测、关键字识别和语言识别。

研究人员表示，使用LEAF创建的模型优于或几乎优于所有替代品，或与其他前端有着相匹配的准确性。

仅仅几百参数，LEAF源代码即将上线

Google的研究团队计划在不久后发布他们的模型、baseline、以及经过预训练前端的源代码。

在论文中，研究者写道：

「在这项工作中，我们提出了一个有可信度的能实现替代Mel-filterbank的模型，应该评估其在多个任务的表现这一观点，

此外，我们还做出了对于广泛多样声音信号的可学习的前端的深入研究，其中，声音信号包含了语音、音乐、音频事件以及动物声音等等」

「通过将Mel-filterbank分解为三个部分，我们提出了一种全新的前端——LEAF。该前端仅由几百个参数控制，并且所有操作都是完全可学习的。

「当为每个独立的任务训练不同的模型时，上述优点都存在。此外，这些结果在具有挑战性的大规模基准测试中也得到了证明。」

参考链接：

https://venturebeat.com/2021/01/25/researchers-propose-leaf-a-frontend-for-developing-ai-classification-algorithms/

（声明：本文仅代表作者观点，不代表新浪网立场。）

分享到:

保存 | 打印 | 关闭

作者简介