安装新浪财经客户端第一时间接收最全面的市场资讯→【下载地址】
OpenAI首次展示音频模型Voice Engine,15秒即可复制原音,生成的声音太逼真了!
AIGC开放社区
用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。
3月30日凌晨,OpenAI在官网首次展示了全新自定义音频模型“Voice Engine”。
用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。
除了能合成音频之外,OpenAI还展示了Voice Engine很多其他际商业用途,例如,一位失去声音表达能力的女孩,在Voice Engine帮助下能像以前一样正常发音说话。
Voice Engine功能展示
OpenAI并非展示了一些简单的demo,而是一些实际场景化用例,这也就是说Voice Engine的技术已经非常成熟。
Age of Learning 是一家儿童教育公司,他们一直在使用Voice Engine生成各种有声读物。同时还通过与GPT-4的相结合使用,创建实时、个性化的回答与学生互动。
例如,使用一段15秒的参考音频。
age-of-learning-reference
00:00 / 00:15
就可以生成几乎一模一样的语音。
animals
00:00 / 00:16
除了语音合成之外,Voice Engine还能提供视频翻译功能,可以将一种视频语音无差别的翻译成多国语言。
HeyGen是一家AI视频合成平台,主要帮助企业开发商品展示的“数字人”。他们通过使用Voice Engine进行视频翻译,扩展至多国语言来扩大全球覆盖受众。
输入一段原参考语音
heygenenglish
00:00 / 00:16
就能将其转化成中文语音
heygen-mandarin
00:00 / 00:24
或者日文语音
heygen-japanese
00:00 / 00:22
帮助声音受损的人恢复声音:诺曼-普林斯生命科学研究所正在测试一项实验,正通过Voice Engine帮助那些因肿瘤或神经系统病因,导致语言障碍的患者恢复声音。
目前,他们已经帮助一位因血管性脑肿瘤,而失去流利语言表达能力的年轻女患者恢复了声音。
下面这段声音是女患者的,她已经无法清楚表达自己说的话。
lifespan-current
00:00 / 00:30
通过提供她之前正常的语音,用Voice Engine进行转译。
lifespan-reference
00:00 / 00:15
现在这位女患者可以正常与其他人交流了。
lifespan-talking
00:00 / 00:16
OpenAI表示,其实他们在2022年底便开发了Voice Engine,并将其用于支持文本到语音 API 中的预设语音以及 ChatGPT 的语音和朗读功能。
但出于安全考虑一直没有全面公测,目前也只是小范围测试。因为相比文本、视频,音频的造假能力太强了几乎无法分辨出来。
此外,OpenAI首席技术官Mira Murati在前不久接受的采访时表示,未来Sora生成的视频会带声音的,很可能为其提供声音的就是Voice Engine。
本文作者:AIGC开放社区,来源:AIGC开放社区,原文标题:《OpenAI首次展示音频模型Voice Engine,生成的声音太逼真了!》
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
![](http://n.sinaimg.cn/finance/0/w400h400/20231127/9ece-7520e4e0c86423a0c596834c30eb42ea.png)
![](http://n.sinaimg.cn/finance/cece9e13/20200514/343233024.png)
责任编辑:王永生
VIP课程推荐
APP专享直播
热门推荐
收起![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)