设为书签 Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。 您也可下载桌面快捷方式。点击下载 | 新浪科技 | 新浪首页 | 新浪导航

仅数百参数,Google发布「最小偏差」音频分类前端LEAF

2021-01-27 13:28:41    创事记 微博 作者:   

来源:新智元

在机器学习中,梅尔滤波器组(Mel-filterbank)这种固定的、手工制作的声音表示,经常被用于训练声音分类算法中。

在它出现几十年后,研究表明,它们表现出了适合表示学习的数学特性; 

换句话说,它们代表了强大的音频特征。

但是Mel-filterbank的设计也存在偏差,而这些偏差,对于在高频率下需要细粒度分辨率的任务来说,是有害的

为了解决这一问题,向人工智能替代领域迈进,谷歌的研究人员开发了「LEAF」。

该前端将Mel滤波器组分解为了几个成分——过滤、池化和压缩/标准化,来创建具有最小偏差的音频分类模型

研究人员称,LEAF可以学习到一组性能优于Mel-filterbank的参数,这表明,LEAF可以用于通用音频分类任务。

目前,该文章已经在ICLR2021上正式登出。

声音识别市场庞大,LEAF应运而出,涵盖八大分类问题

根据Grand View Research的数据,我们可以发现,到2018年,全球声音识别市场的价值已经达到了6650万美元,因此,LEAF的产生非常具有现实意义。

除了在语音识别领域的用处,听觉能力本身也已经成为人工智能的关键:

声音可以使AI能够理解环境,并区分环境中发生的各种事件。

例如,如果有人入侵,带有AI驱动的声音感应技术的事件管理系统会打开灯,并大声播放音乐来阻止入侵,同时,它还会向住户发送警报。

图:Amazon的Echo Dot图:Amazon的Echo Dot

而LEAF的出现,为这类产品的生产无遗提供了极大便利。

在实验中,研究人员使用LEAF开发了八种不同分类问题的独立单任务监督模型:

这八种分类问题包括了声音场景分类、鸟鸣检测、情感识别、说话人识别、乐器和音高检测、关键字识别和语言识别

研究人员表示,使用LEAF创建的模型优于或几乎优于所有替代品,或与其他前端有着相匹配的准确性。

仅仅几百参数,LEAF源代码即将上线

Google的研究团队计划在不久后发布他们的模型、baseline、以及经过预训练前端的源代码。

在论文中,研究者写道:

「在这项工作中,我们提出了一个有可信度的能实现替代Mel-filterbank的模型,应该评估其在多个任务的表现这一观点,

此外,我们还做出了对于广泛多样声音信号的可学习的前端的深入研究,其中,声音信号包含了语音、音乐、音频事件以及动物声音等等」

「通过将Mel-filterbank分解为三个部分,我们提出了一种全新的前端——LEAF。该前端仅由几百个参数控制,并且所有操作都是完全可学习的。

「当为每个独立的任务训练不同的模型时,上述优点都存在。此外,这些结果在具有挑战性的大规模基准测试中也得到了证明。」

参考链接:

https://venturebeat.com/2021/01/25/researchers-propose-leaf-a-frontend-for-developing-ai-classification-algorithms/

(声明:本文仅代表作者观点,不代表新浪网立场。)

分享到:
保存   |   打印   |   关闭