国家科学技术进步一等奖，为何给了这家AI国家队|科大讯飞_新浪财经

转自：大众报业·齐鲁壹点

6月24日，2023年度国家科学技术奖在京揭晓，共评选出250个项目。记者了解到，由科大讯飞股份有限公司牵头，联合中国科学技术大学、清华大学、华为终端有限公司、中移（杭州）信息技术有限公司等高校及行业领军企业联合完成的“多语种智能语音关键技术及产业化”项目荣获2023年度国家科技进步奖一等奖。据悉，这是深度学习引发全球人工智能浪潮以来，过去十年人工智能领域的首个国家科学技术进步奖一等奖。这也是科大讯飞继2002年和2011年两次获得国家科学技术进步奖二等奖之后，首次获得国家科学技术进步奖一等奖。

项目关键技术完成四大突破

据了解，多语种智能语音技术对于支撑人机交互、人类语言互通及国家安全等需求具有重大战略意义，具有十分广阔的产业前景，是当前国际科技竞争核心焦点之一。

为解决语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题，科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法，实现语音信号中内容、噪声等高度耦合的多维属性特征解耦，使得复杂场景下语音识别准确率得到新的突破。

如何应对小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题？科大讯飞设计了全新的多语种通用音素体系和基本语言单元，实现多语种统一音素韵律体系的构建，又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说，就是将不同的小语种进行分类，找到同类语种的共同规律，进行分析建模和训练——最终，显著提升了小语种语音系统性能。

同时，为解决复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题，科大讯飞提出语音语义互增强的鲁棒口语理解技术，有效提升语音交互、语音翻译等复杂场景的语义理解准确率；提出多源知识增强的可信文本生成技术，提升专有词汇及领域知识引用的准确率。

在解决使用国产芯片开展智能语音算法模型训练和推理面临的性能低、适配难方面，科大讯飞提出的硬件亲和的变长输入算子融合和联合统一量化感知训练技术，通过软硬件协同优化的动态张量算子自动融合方法，实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平；通过多硬件联合的量化计算模拟，达到模型单次训练后可在不同硬件平台上一键部署。

值得一提的是，此次获奖项目是科大讯飞联合清华大学、中国科大、华为、中国移动等共同完成，称得上是一件中国科技的“亮剑”之作。

“顶天立地”构建产业生态

如今，该技术成果不仅在全国两会、博鳌论坛等重要政务和商务交流场合得到广泛应用，更在中国品牌“走出去”战略中发挥了关键推动作用。

以智能手机为例，项目支持各主流手机厂商累计激活设备超10亿台；智能汽车方面，车载智能化产品累计前装超 5300万套，2023年中国汽车出海十强企业中，有8家企业都在和科大讯飞合作；智能软硬件方面，有力支撑讯飞翻译机、讯飞智能录音笔、讯飞听见等智能软硬件产品不断创新，其中，讯飞翻译机目前能支持85个语种的翻译，覆盖全球200多个国家和地区；在会议、办公等场景，讯飞听见系列产品服务遍及全球50多个国家和地区，支持了超过40万场会议，触及超过4亿观众；面向更多用户，讯飞输入法月活跃用户超1.4亿人，日语音交互次数超10亿次。

项目还构建了多语种智能语音技术及全球产业生态，2017年开始承建的智能语音国家新一代人工智能开放创新平台，已聚集平台开发者数700.7万，终端设备数40.5亿；构建全球多语种技术生态，目前平台聚集海外开发者数超过40万。

“听见AI的声音”公益行动，为听力障碍人士提供免费的实时语音转文字服务、捐赠免费时长，截至2024年6月，累计捐赠时长超一亿分钟；“三声有幸”项目，累计服务1368万人，助力公益团队创建无障碍应用超3万个。

未来：智能语音+认知大模型，用人工智能建设美好世界

记者了解到，因2021年、2022年国家科学技术奖暂停的缘故，2023年度国家科学技术奖积累了大量的优秀成果，无论是提名环节拿指标、初评环节过网评，还是答辩环节，竞争都异常激烈，堪称是国奖史上“最难”的一年。

十年磨一剑，科大讯飞创业25年来第三次获得国家科技进步奖，对于科大讯飞而言，是一个总结，也是新开始。

通用人工智能时代，科大讯飞多语种智能语音关键技术中的创新和大模型技术相互补充、相互促进。

2024年1月30日，科大讯飞就基于上述技术融合路线发布了星火语音大模型，显著超过了OpenAI的Whisper v3的语音大模型能力，Whisper v3的24个主要语种的平均识别率为82%，而星火语音大模型达到了90%。4月26日，科大讯飞又首发多情感超拟人合成和一句话声音复刻能力，使机器具备更加丰富的超拟人情绪感知和表达。

大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果，同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力，也能进一步大幅提升智能语音技术的使用场景和应用价值，支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等等未来智能产品创新。