对话“可穿戴人工喉”研发团队:类似创可贴,使患者声音还原准确率超90%

对话“可穿戴人工喉”研发团队:类似创可贴,使患者声音还原准确率超90%
2023年03月27日 20:58 红星新闻

近日,清华大学集成电路学院教授任天令团队研发了一款可穿戴人工喉,可以识别佩戴者喉部发声的信号,并将其转换为语音播放出来,还原准确率超90%。该成果已发表在《自然》人工智能子刊《自然·机器智能》上。任天令教授团队基于石墨烯材料研发的智能可穿戴人工喉,对低频的肌肉运动、中频食管振动和高频声波信息有较高的灵敏度,也具有抗噪声的语音感知能力。同时,人工喉还能通过热声效应将信号转换成声音播放。

↑使用智能可穿戴人工喉进行无声语音交互↑使用智能可穿戴人工喉进行无声语音交互

著名医学杂志《柳叶刀》2021年发布数据显示,2019年全球共有20.9万例新发喉癌病例,其中男性为18.1万,女性为2.8万。相较于前10年,2010-2019年间喉癌的新发病例数增加了24.7%。

任天令教授团队告诉红星新闻,通过集成AI模型,人工喉能够识别一名喉切除术患者模糊说出的日常词汇,准确率超过90%。识别出的内容被合成为语音在人工喉上播放,可以初步恢复患者的语音交流能力。这将有助于帮助发声失能群体恢复发声,造福更多的声音障碍者。同时,人工喉的制作过程简单、性能稳定、易于集成,为语音识别和交互提供了一种新的硬件平台,同时它还有很大的优化和拓展空间。

让喉疾患者重获新“声”

将贴片贴在靠近喉咙处就能还原声音

红星新闻:能否简单介绍下这款可穿戴人工喉的性能和工作原理?

任天令教授团队:我们人的语音交流发出声音,来源于声带震动,以及喉部、唇部这些发声器官的协同合作。当说话的时候,如果把手放在喉部,能感觉到喉管是有震动的。不同于麦克风通过空气中的机械波采集声音,人工喉是一个极其敏感的机械传感器,它能够感知喉部细微的震动,可以把它看作一个频域感知范围更广的麦克风。

此外,我们以往的扬声器是通过机械振动来产生声音,但如果喉部一直振动的话,不光会干扰到声音感知,也会影响佩戴的体验。由于石墨烯具有高热导率和低热容率的特点,它还能够通过空气加热、冷却的过程(热声效应)发出声音。因此,人工喉可以被看作为一种“麦克风和扬声器的集合体”,用以辅助人们语音交流。

红星新闻:在这个过程中有没有遇到特别难的问题?

任天令教授团队:有的。这是一个比较复杂的工程项目,从传感器的材料选取,传感器的设计优化,数据的采集,采集系统的搭建,后面还有语音模型的设计,这些软件硬件需要结合一起去考虑,从工程量来说是比较大的,里面也有一些未知的科学问题需要探索。

在实验的过程中,最关键的就是信号采集的问题。因为喉部震动比较微弱,最初采集的数据质量实际上并不是很理想,我们实验人员是在自己身上也尝试过很多次。主要还是得多下功夫不断去实验,这方面没有捷径。

红星新闻:人工喉与现在市面上的电子喉助音器等产品相比有哪些不同?

任天令教授团队:这是两个完全不一样的技术。现在市面上的电子喉是人去适应设备的理念,人工喉是让机器去学习人类的语言,这是一个本质的区别。

具体来说,使用者往往因为喉切除手术以后把声带切除了,丧失了声带这个震动的声源,传统的电子喉是一个提供单频振动的马达,配合上食管、唇部、舌头的运动,调制振动发出声音,声音单调,听起来像机器人。同时,电子喉学习、使用成本很高的。因为喉切除手术以后,需要手持电子喉抵住喉咙去学习,尝试用它发声。

人工喉的使用相比电子喉会更容易。使用者贴附以后只需要录入自己的语音,设备的算法可以快速学会语音特征,不用去单独另外再学一门语言。这类似于手机录入指纹的过程,尝试几次以后就慢慢学会了。通过集成AI模型,人工喉能够识别一名喉切除术患者模糊说出的日常词汇,准确率超过90%。我们后面将会采用人工AI语音合成技术,使用者本来的声音会被完全还原。

另外佩戴也会更舒适,一枚硬币大小的人工喉贴片,贴在颈部靠近喉咙处就可以了。

不仅仅造福于声音障碍者

还可用于金融支付、火灾现场等领域

红星新闻:人工喉的使用体验如何?

任天令教授团队:目前看来人工喉的成本相对较低,我们可以把它看作一个类似创可贴的形式,夏天热出汗多就勤换,冬天长时间佩戴也可以。如果晚上睡觉佩戴觉得不舒服,也可以卸掉等醒后再佩戴。

考虑到人工喉属于传感元件,它要实现一个比较高的灵敏度的话,肯定相对来说会脆弱一点。所以它是可以更换的,失效后也不用修,直接换掉就可以了。

红星新闻:除了刚才提到的有发音障碍的喉疾患者,人工喉还将会应用到哪些方面?

任天令教授团队:人工喉还有很大的优化和拓展空间,例如提高声音的质量和音量,增加语音的多样性和情感识别,以及结合其他生理信号和环境信息实现更自然和智能的语音交互。比如贴附的位置也不只限于喉咙,未来也可能在面部产生类似于一种像电影《阿凡达》里面那些外星人面部纹身,看起来会很有科技感。我们也希望通过进一步的研究和合作,让人工喉造福更多的声音障碍者和语音交互的用户。

项目研究的初衷是想帮助解决发声失能群体恢复发声的问题,但实际上这项成果对普通人来讲也是可以适用的。比如说在机场工作的地勤人员、火灾现场的消防员,在那种嘈杂环境下正常的语音交流肯定是不行的。但是通过我们的这种方式,将声音转化成对应的语音信号,传到耳麦里进行播放,可以有效解决这些问题。

另外对更广大的社会人群,在一些注意通话私密性的场合,还有金融支付领域都有广泛的应用前景。比如人工喉可以将采集到的喉部振动信息用于语音支付,安全方面或会有比较显著的提升。

红星新闻:目前还有哪些最新进展?

任天令教授团队:近期我们可能还会请一些做过喉切除手术的志愿者来参与实验,同时在硬件上面做一些优化。算法的话目前还是在检测,后面如果要做到连续实时语音的话,还需要更多的志愿者采集到足够的语料库。目前整体还处于试验优化阶段。

红星新闻:这项成果什么时候能面向社会?

任天令教授团队:目前我们主要还是对项目各方面进行优化,并将积极推进这一成果向市场进行产业化转化,尽早投入社会应用,服务于需要得到帮助的广大人群。在这个期间,我也非常欢迎社会各界的朋友一起关注、支持!

红星新闻记者 任江波 实习生 李佩欣

责编 官莉 编辑 潘莉 

研发团队麦克风
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片