打造“多语种”名片科大讯飞实现智能语音自主创新生态|科大讯飞|智能语音_新浪科技

　　在教室，老师通过遥控器和智能黑板直接对话；在家里，空调、电视机等家电早已实现语音控制；驾车行驶在路上，一句指令就能操控汽车；会议室里，多人发言都能立刻被清晰录音并转写成文字、生成会议纪要……近年来，智能语音正润物细无声地改变着人们的生活，也创造了巨大的市场价值。

　　据国际数据公司IDC分析，预计到2030年，全球智能语音服务市场规模将达731.6亿美元，复合增长率27%。如此庞大的市场，中国如何实现技术突破？以科大讯飞为代表的中国科技企业给出答案：自主创新。

　　20世纪90年代，中国的智能语音技术和语音产业还是外国人的天下。据了解，科大讯飞创始人刘庆峰当时还是中国科学技术大学的学生，在导师王仁华的支持下，他和几位同学创立了科大讯飞。

　　经过多年研究和实践，科大讯飞不仅将中文语音技术做到领先，也将多语种技术做到全球领先：语音识别的准确率达到98%，多人会议场景的说话人分离和识别的准确率达到95%。2006年至2019年，连续十四年荣获国际语音合成大赛冠军；2016年至2023年，连续4届获得国际多通道语音分离和识别比赛CHiME冠军；2021年，科大讯飞在美国国家标准与技术研究院NIST发起的国际低资源多语种语音识别竞赛OpenASR中，获得全部受限赛道的15个语种冠军及7个语种非受限赛道冠军；2021—2023年，连续三年获得国际语音翻译比赛IWSLT冠军……

　　如今，在中国智能语音市场，科大讯飞的市场占有率多年保持第一。不止如此，科大讯飞还取得了多项重要标志性成果，逐渐构建起独立的语音自主知识产权技术体系。

　　今年1月30日，科大讯飞发布基于首个全国产算力训练的讯飞星火V3.5，正式发布星火语音大模型，首批37个主流语种效果超过OpenAI Whisper V3。

　　4月26日，讯飞星火大模型V3.5再次更新，发布业界首个支持长文本、长图文以及长语音的大模型产品。其长语音功能可以实现会议录音、学习视频等的一键研读，实现音视频场景的高效知识获取。新版大模型将科大讯飞国际领先的语音识别和翻译技术结合起来，让英文资料也能像纯文字内容一样进行快速获取和学习。

　　如今，一个自主可控的多语种智能语音技术及全球产业生态正在构建。科大讯飞的技术算法全部自研，目前已建成5个国产化集群，语音合成、识别、翻译、交互等国产化能力日服务8.73亿次。2023年，讯飞与华为联合攻关大模型国产化算力底座核心难题，建设首个全国产算力平台“飞星一号”，填补了国产超大模型训练平台空白。

　　科大讯飞董事长刘庆峰表示：“我们应正视差距，聚焦自主创新的底座大模型‘主战场’，聚焦资源加快追赶，同时系统性构建通用人工智能生态和应用，打造综合优势。”（黄一鹤）