晚点独家丨月之暗面招募微软亚研院谭旭,研发语音端到端

晚点独家丨月之暗面招募微软亚研院谭旭,研发语音端到端
2024年10月22日 23:43 网易新闻

我们获悉,微软亚研院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。

语音之外,据了解,月之暗面的整个多模态研究在 2023 年 10 月就开始了。在受市场关注的视频生成大模型上,接近月之暗面的人士称,月之暗面目前有十人左右的团队在研发视频模型,为确保产品更具差异性,对外发布计划仍在推迟。

今年更早时,月之暗面创始人杨植麟曾告诉我们,基础大(语言)模型和多模态是两个东西,前者是通用理解力的提升,后者是扩充更多交互方式。目前这个阶段,提升智能能力会更重要。但有可能两个同时做。

据谭旭个人主页,他在离开微软研究院前担任首席研究经理,方向是生成式人工智能、语音 / 音频 / 视频内容生成,论文引用量达上万次,他也曾担任 NeurIPS 等学术会议期刊的审稿人;其多项语言、语音、音乐、视频生成成果已应用在 Azure、Bing 等微软的产品与服务中。

谭旭加入后,主要目标之一是可能是帮月之暗面打造类似 GPT-4o 的语音体验。今年 5 月,OpenAI 发布多模态大模型 GPT-4o,其语音交互效果大幅提升:延时更低、可随时打断,这些变化就来自端到端语音技术。

在这之前,主流的语音对话方案是 “ASR(自动语音识别)+LLM(大语言模型)+TTS(语音合成)”,也就是在输入端先识别语音、转化成文本;再由大模型处理内容,生成新文本;然后合成为语音、最终输出。这一方案下,机器响应时间较长,且人无法随时打断机器讲话,只能你一段、我一段地讲,和人与人的自然聊天状态有差距。

而端到端语音技术则能直接输入语音,经过一个模型处理后,再输出语音,省去了 “语音转文字再转语音” 的中间过程,这能压缩机器响应时间,也能让人随时打断机器,实现更自然的交互;它同时能帮助改善大模型的幻觉问题——当用户发现大模型的回答完全不搭边时,可以马上打断,给新的提示词。

发布 GPT-4o 时,OpenAI 称几周内就会上线其语音和视频功能,但此后多次推迟;直到 9 月 25 日,OpenAI 终于向所有 ChatGPT Plus 付费用户推送了端到端技术支持的高级语音功能(advanced voice mode)。更早之前,OpenAI 也曾放出一段视频:显示高级语音模式下,ChatGPT 会突然模仿用户音色说话,并称安全问题是他们推迟大规模上高级语音功能的原因之一。这侧面说明,端到端语音技术虽被视为重要探索方向,但目前还在实际应用的早期阶段。(文丨王与桐 编辑丨程曼祺)

海量资讯、精准解读,尽在新浪财经APP
端到端 谭旭 独家 招募 微软

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 10-25 港迪技术 301633 37.94
  • 10-25 健尔康 603205 --
  • 10-22 科拜尔 920066 13.31
  • 10-21 强达电路 301628 28.18
  • 10-18 科力股份 920088 7.32
  • 新浪首页 语音播报 相关新闻 返回顶部