消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面

消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面
2024年10月23日 08:26 网易新闻

IT之家 10 月 23 日消息,据“晚点 Auto”昨晚报道,微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型

报道称,月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称,目前正有 10 人左右的团队在研发视频模型,为确保产品更具差异性,对外发布计划仍在推迟。

资料显示,谭旭在离开微软研究院前担任首席研究经理,方向是生成式 AI、语音 / 音频 / 视频内容生成,论文引用量达上万次,他也曾担任 NeurIPS 等学术会议期刊的审稿人;其多项语言、语音、音乐、视频生成成果已应用在 Azure、Bing 等微软的产品与服务中。

谭旭加入月之暗面后的主要目标之一,可能即是帮助月之暗面打造“类似 GPT-4o”的语音体验。

IT之家注:OpenAI 今年 5 月发布多模态大模型 GPT-4o,基于端到端语音技术打造,具备更低延时、可随时打断等特性。随后,OpenAI 于 9 月 25 日面向 ChatGPT Plus 付费用户推送了高级语音功能。

此前,主流的语音方案是 ASR(自动语音识别)+LLM(大语言模型)+TTS(语音合成):输入端识别语音、转化成文本;大模型处理内容生成新文本;文本合成为语音、最终输出。

但上述方案的不足在于机器响应时间较长、人类无法随时打断,与人类的自然聊天状态存在差距。相比之下,端到端省去了“语音转文字再转语音”的中间过程,可以压缩机器响应时间,人类也可随时打断机器。同时,端到端还可帮助改善“幻觉”:用户可立即打断输出并给出新的提示词。

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 10-25 健尔康 603205 --
  • 10-25 港迪技术 301633 37.94
  • 10-22 科拜尔 920066 13.31
  • 10-21 强达电路 301628 28.18
  • 10-18 科力股份 920088 7.32
  • 新浪首页 语音播报 相关新闻 返回顶部