Meta 开发出一款机器学习模型,其研究人员称该模型可以在近乎实时的情况下在约 36 种语言之间进行语音到语音的翻译。
这个名为 SEAMLESSM4T 的基础模型让人联想到《银河系漫游指南》中的巴别鱼,它通过利用互联网音频片段,巧妙地避开了繁琐的数据标注过程,在 450 万小时的人类语音记录上进行训练。
Facebook 母公司的研究团队今天在《自然》杂志上发表论文称,这个相对开放的模型可以作为其他应用程序的基础,支持"在各种场景下实现多语言即时交流"。
爱沙尼亚塔林理工大学语音处理教授 Tanel Alumae 在随附文章中表示,该模型在包含 450 万小时多语言口语音频的海量数据(15.460, 0.15, 0.98%)(维权)集上进行预训练,以帮助建立数据模式,"这使得模型可以在无需大量定制训练数据的情况下,更容易针对特定任务进行微调"。
研究团队还使用了一种新的自动化技术来避免标注大量训练数据。
Alumae 解释说:"SEAMLESS 团队最巧妙的策略之一是从互联网上'挖掘'跨语言对齐的训练数据对 — 比如一种语言的音频片段与另一种语言的字幕相匹配。从一些已知可靠的数据开始,作者训练模型识别两个内容片段(如视频片段和相应字幕)在含义上是否真正匹配。"
这种技术帮助 Meta 的无缝通信团队收集了约 443,000 小时带有匹配文本的音频,并对齐了约 30,000 小时的语音对,然后用于进一步训练模型。Alumae 赞扬了 Meta 对模型的开放程度 - 这与可用于创建其他应用程序的 Llama 系列大语言模型类似。"对于缺乏从头构建这些模型所需大量计算资源的研究人员来说,这种开放程度是巨大的优势。"
然而,也有人批评 LLaMA-3 的"明显非开放使用限制"。
据称,Meta 的新模型还可以将语音翻译成多达 100 种语言的文本。Alumae 指出,虽然这个数字令人印象深刻,但与世界上约 7,000 种语言相比还相差甚远。
他说:"该工具在人类相对容易处理的许多情况下仍然存在困难 — 例如在嘈杂环境中的对话或口音很重的人之间的对话。不过,作者利用真实世界数据的方法将为开发能够媲美科幻作品的语音技术开辟一条有前途的道路。"
康奈尔大学信息科学系的 Allison Koenecke 在第二篇随附文章中指出,虽然这一突破可能代表着比人工更高效和更具成本效益的转录和翻译方法,但"必须要理解这些技术失效的方式 — 对某些群体的影响尤其不成比例"。
她说:"未来的工作必须确保语音技术研究人员能够改善性能差异,并让用户充分了解这些模型相关的潜在利益和危害。"在论文中,Meta 描述了如何衡量语言的"毒性"和性别偏见。
研究人员还表示,自然语音"包含一系列韵律 — 节奏、重音、语调或声调 — 和情感成分,这些都值得进一步研究。"
他们补充说:"要创建感觉自然和有机的语音到语音翻译系统,应该将更多研究投入到保留表现力的输出生成中。此外,要完全实现巴别鱼的愿景,需要在低延迟语音翻译研究方面进行更深入的投入。开发能够流式处理的系统(即在输入句子呈现时进行增量翻译)可能会增加这些系统在各种机构环境中的采用率。我们希望 SEAMLESSM4T 能为这两个研究领域开辟新的可能性。"


APP专享直播
热门推荐
“英雄团长”祁发宝,再获表彰 收起“英雄团长”祁发宝,再获表彰
- 2025年03月03日
- 01:08
- APP专享
- 扒圈小记
23,858
“菜刀哥”李坤朋因病去世,享年39岁
- 2025年03月03日
- 02:40
- APP专享
- 扒圈小记
21,707
年仅39岁!救人英雄“菜刀哥”李坤朋去世 家属讣告:因病抢救无效辞世,殡期定于3月5日
- 2025年03月03日
- 03:26
- APP专享
- 北京时间
4,004

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 13:31:39
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 10:39:42
【3连板上海洗霸(sh603200):公司固态电池相关业务尚未获得批量订单】上海洗霸(sh603200)(***)发布股票交易风险提示公告称,公司关注到近期固态电池概念受市场关注度较高,公司相关业务尚未获得批量订单,暂未形成长期稳定收入,对公司整体业绩暂不构成影响。同时,基于产品迭代及市场发展的不确定性,公司目前相关投入相对较小,相关送样样品的检测、匹配结果和应用前景也具有较大不确定性。 -
趋势领涨今天 10:38:09
【3连板上海洗霸(sh603200):公司固态电池相关业务尚未获得批量订单】上海洗霸(sh603200)(603200.SH)发布股票交易风险提示公告称,公司关注到近期固态电池概念受市场关注度较高,公司相关业务尚未获得批量订单,暂未形成长期稳定收入,对公司整体业绩暂不构成影响。同时,基于产品迭代及市场发展的不确定性,公司目前相关投入相对较小,相关送样样品的检测、匹配结果和应用前景也具有较大不确定性。 -
数字江恩今天 10:11:52
目前大盘依托3300整数位,在3356之下的抵抗,其实就是市场高低切换。低位的新能源板块表现,而科技里面则是高低切换。总的来说,高位的目前就稍微惰性些。 -
数字江恩今天 10:11:48
明日关注3300即可,只要不跌破3300,大盘还将再次反弹,尝试3356压力。但是只要没有特别显著的放量,那么是站不上3356压力位置的。本周在3356压力下震荡后,还会再有一次回踩。 -
数字江恩今天 10:11:43
看大盘的5分钟图,图上3314之后的震荡非常对称。3314-3384的三段式向上,3384-3388高位震荡后的三段式回踩。从目前来看,大盘并未持续下跌,而只是区间震荡,这个结论依旧成立。【更多独家重磅股市观点请点击】 -
数字江恩今天 10:11:32
板块来说,今天新能源板块表现明显,特别是固态电池。除此之外,数据中心、国产算力等板块个股也非常活跃。科技只是分化严重,高低切换明显,并不是熄火。 -
数字江恩今天 10:11:26
A股两市今日成交6440 + 9807 = 16247 亿人民币,缩量较为明显。大盘日内略微冲高受阻于上周五大阴线实体50%位置,然后回落再次新低。个股方面,超过60%的个股收红上涨。 -
数字江恩今天 10:11:21
继续震荡 -
趋势领涨今天 10:03:30
今天大盘出现冲高回落,两市超过3000只个股上涨,但涨幅都不大,上周五跑了一头牛,今天只回来一只鸡,这个市场挺无语的,下跌时只跌我的,修复只修复你的;吃.肉不带我,买单却来喊上我。特别是那个内资,今天大幅流出近350亿元,你们说他们要去投胎吗?