
继 2022 年推出首个音频模型 Whisper,OpenAI 于今日凌晨发布了 3 款全新语音模型——
gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts 。
OpenAI 表示,Operator、Deep Research、Computer-Using Agents 以及 Responses API 的发布,使得基于文本的 agent 在任务执行能力和实用性方面不断突破。然而,要让 agent 真正发挥作用,交互方式必须更加直观,超越纯文本输入,支持自然语音交流。
OpenAI 表示,最新的语音转文本(STT)模型在口音适应、嘈杂环境处理以及不同语速识别方面均优于现有解决方案,使其在呼叫中心、会议记录等领域具备更高可靠性。
目前,3 款全新语音模型已经上线 API,开发者可以基于此打造更强大、更具个性化的语音 agent。
详情链接:
https://platform.openai.com/docs/guides/audio
此外,开发者还可以为文本到语音(TTS)模型设定语音风格。例如,可以让 AI 以“富有同理心的客户服务代表”风格进行交流。这使得语音 agent 能够提供更具温度和表现力的语音体验,广泛应用于个性化客服、故事讲述等领域。
先来感受两个语音实例:

体验地址:https://www.openai.fm/
据介绍,此次 OpenAI 通过使用真实音频数据集进行预训练、增强的蒸馏方法以及强化学习构建了全新的语音模型。具体而言:
这些技术创新结合实际应用需求,不仅提升了语音建模能力,还大幅改善了 AI 在真实场景中的表现。
相较于原有的 Whisper,新语音模型在词错误率(WER)、语言识别能力和准确性方面均有显著提升。在多项基准测试中,新语音模型的 WER 均低于现有 Whisper 模型。 WER 衡量语音识别的准确性,数值越低表示转录质量越高。

gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在 FLEURS(少样本多语言语音基准)测试中,覆盖 100 多种语言,表现均优于 Whisper v2 和 Whisper v3,展现了更广泛的语言适应能力和更精确的转录效果。
而且,在主要语言的评测中,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 超过了市场上的其他领先模型,为多语言语音应用提供了更可靠的技术支持。

OpenAI 推出的 gpt-4o-mini-tts 则具有增强的语音可控性(steerability)。开发人员首次不仅可以“指导”模型说什么,还可以“指导”它怎么说,从而为从客户服务到创意故事等各种用例提供更多定制体验。
值得注意的是,这些文本到语音模型仅限于人工预设语音,OpenAI 表示,他们会对其进行监控,以确保它们始终与合成预设语音相匹配。
OpenAI 也给出了一些官方使用建议 ,对于已经使用基于文本的模型构建对话体验的开发人员来说,添加新的语音到文本和文本到语音模型是构建语音 agent 的最简单方法, OpenAI 将发布与 Agents SDK 的集成,以简化这一开发流程;对于希望构建低延迟语音到语音体验的开发人员,可以使用实时 API 中的语音到语音模型进行构建。
未来,OpenAI 计划继续提高音频模型的智能性和准确性,帮助开发者使用自己的自定义语音来构建更加个性化的体验,以及开发其他模态(包括视频)的 agent。
整理:学术君


APP专享直播
热门推荐
51岁男子找17岁女孩代孕前已离异 收起51岁男子找17岁女孩代孕前已离异
- 2025年03月27日
- 00:31
- APP专享
- 扒圈小记
34,385
华为智驾大师赛冠军开智驾出车祸?官方回应:协助进行事故处理和医疗安置,提醒用户规范使用智驾功能
- 2025年03月27日
- 02:19
- APP专享
- 扒圈小记
11,932
央行副行长宣昌能:将根据国内外经济金融形势择机降准降息
- 2025年03月27日
- 06:58
- APP专享
- 北京时间
4,534

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 14:39:21
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
数字江恩今天 10:23:30
【3月限时vip活动】3月板块轮动加快,哪些赛道机会更好?数字江恩《股知道VIP》48小时VIP课程2元(原价8元),月课限时特价979元(原价1088元)。活动截止3月31日。【更多独家重磅股市观点请点击】 -
趋势领涨今天 10:07:58
【南向资金今日净买入逾41亿港元 泡泡玛特获净买入居前】南向资金今日净买入41.42亿港元,其中,泡泡玛特、阿里巴巴-W分别合计获净买入约7.25亿港元、3.64亿港元;盈富基金遭净卖出约14.42亿港元。 -
数字江恩今天 09:33:02
明日看3366-3386之间的选择,若先站上3386,那么2-b还可以延伸一点空间;反之,若先跌破3366,则立即确认2-c回踩开始。这里也不用过于担心,2-c确立后,能否跌破3340还两说了,而且哪怕跌破也空间非常有限。第二浪回踩有望在未来三个交易日内结束。 -
数字江恩今天 09:32:57
看5分钟图,今日的脉冲受阻与图上的3297-3341红色轮谷线。截止今日,3340的2-b结构反弹了54个点,和本人预期的50-60个点相吻合,时间也算合适。正常来说,2-b可以结束了。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:32:44
板块上,今日化工板块继续炒作涨价概念,活跃度第一。光刻机、芯片、新能源、医药医疗也算是局部炒作,总的来说,都是局部炒作,市场没有明显热点。 -
数字江恩今天 09:32:38
A股两市今日成交4965 + 6942 = 11907 亿人民币,相对昨日成交金额略微提升,但成交量下跌。大盘今日低开后脉冲拉起新高,然后全天缓缓回调了约一半拉升幅度。个股方面,红盘个股略微超过了1/3,大幅下跌个股家数86家,和大幅上涨个股家数91家相当。 -
数字江恩今天 09:32:30
2-c回踩呼之欲出 -
趋势领涨今天 09:32:07
沪深北三大交易所年内的发行上市审核全线启动。3月26日,北交所召开年内首场上市委会议,四川西南交大铁路发展股份有限公司过会。有业内人士称,目前IPO申报不需要预沟通,发行人和中介机构可视情况进行申报。另有投行人士表示:“IPO申报数量后续将增加,但市场是否回暖还要再观察。”他认为,判断IPO是否常态化,应综合申报受理、发行上市等整体情况考量。这个是下午大盘回落的原因吗?这叫带病工作! -
北京红竹今天 07:59:00
3、短线有增仓2个组合,基本上长线组合没变化,好几天没有交易了,静等大级别调整之后的布局。短线组合昨天是55%的仓位,酱油股大跌没给机会出来,还在持有,早上跌停又买了一只算力10%的仓位,下午差点干到涨停吃个地天板,仓位就上到了65%。大级别末端只能发挥短线的作用,因为不格局,随时可以撤,这里长线和ETF没办法布局,长线需要格局的。