【深度】OpenAI类人高级AI语音助手正式上线，会说中文等50多种语言_

来源：财中社

在首次公开发布四个月后，OpenAI终于开始面向广大付费用户开放ChatGPT的类人高级人工智能（AI）语音助手功能。

美东时间周二（24日），OpenAI宣布，所有付费订阅OpenAI ChatGPT Plus和Team计划的用户都将可以使用新的ChatGPT“高级语音模式”Advanced Voice Mode（Advanced Voice Mode，下称AVM）。该功能将在未来几天内逐步推出，首先在美国市场上线。下周，该功能将向OpenAI Edu和Enterprise计划的订阅者开放。

这意味着，ChatGPT的付费用户都将可以启用新的语音功能，只需通过说话，无需手动输入提示词和GPT对话。在App上访问高级语音模式时，用户可以通过弹出窗口知道自己已经进入了高级语音助手，用户会收到App的通知。

OpenAI赋予AVM两种功能，一是为语音助手存储“自定义指令”的功能，二是记住用户希望语音助手表现何种行为的“记忆”功能，类似于2024年4月OpenAI为ChatGPT文本版本推出的记忆功能。用户可以利用这些功能确保语音模式的个性化，让AI助手根据用户对所有对话的偏好做出响应。

OpenAI本周二推出了五种不同风格的新声音，分别名为Arbor、Maple、Sol、Spruce 和 Vale，加上之前老版语音模式推出的四种声音 Breeze、Juniper、Cove 和 Ember，可选声音达到九种，撤走了被指山寨“寡姐”（女演员斯嘉丽·约翰逊）的声音Sky。OpenAI还提高了部分外语的对话速度、流畅度并改进口音。

OpenAI介绍，先进的语音助手可以用超过50种语言说“对不起，我迟到了”，并在社交媒体X上发布一段视频，演示用户可以要求语音助手表达“因为让奶奶等了很久，向奶奶致歉”等。视频显示，AI助手首先按照要求总结了用户想要表达的意思，用英语说了一遍，并在用户表示“奶奶只会说普通话”后，又用标准的普通话说了一遍。

不过，全新的语音功能适用于OpenAI的AI模型GPT-4o，不适用于最近发布的预览模型o1。

而且，新的语音模式缺少5月OpenAI展示过的不少功能，比如计算机视觉功能。该功能可让GPT仅通过使用智能手机的摄像头就对用户的舞蹈动作提供语音反馈。

2024年5月，OpenAI就在推出新旗舰模型GPT-4o时演示了语音模式Voice Mode。当时GPT-4o支持的ChatGPT声音听起来像一名美国成年女性，可以即时回应请求。当它听到演示的OpenAI研究主管Mark Chen呼气过度时，似乎从中察觉到了他的紧张，然后说“Mark，你不是吸尘器”，告诉Chen要放松呼吸。

OpenAI原计划6月末向一小批Plus计划用户推出该语音模式，但在6月，以解决潜在安全问题为由推迟发布，以便确保该功能可以安全有效地处理来自数百万用户的请求。当时OpenAI称，计划2024年秋季让所有Plus用户都可以访问该功能，确切的时间表取决于是否达到内部对安全性和可靠性的高标准。

如果您有新闻线索，请联系我们：newsroom@caizhongshe.cn

特别声明：以上内容仅代表作者本人的观点或立场，不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的，请于上述内容发布后的30天内进行。