阿里千问开源 Qwen3-ASR 语音识别模型:支持 52 种语种与方言,1.7B 版本达 SOTA 水平

阿里千问开源 Qwen3-ASR 语音识别模型:支持 52 种语种与方言,1.7B 版本达 SOTA 水平
2026年01月29日 22:11 IT之家

IT之家 1 月 29 日消息,阿里千问团队今日正式开源 Qwen3-ASR 系列模型,该模型是由 Qwen 开发的一系列功能强大的语音识别模型,包括两个强大且全面的语音识别模型 Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B,以及一个创新的语音强制对齐模型 Qwen3-ForcedAligner-0.6B。Qwen3-ASR 系列的语音识别模型支持 52 个语种与方言的语种识别与语音识别。

据官方介绍,依托创新的预训练 AuT 语音编码器与 Qwen3-Omni 基座模型的强大多模态能力,Qwen3-ASR 实现了精准与稳定的语音识别,其 1.7B 模型在中文、英文、中文口音与歌唱识别等场景下达到 SOTA,具有复杂文本识别能力以及强噪声下的稳定性;0.6B 模型在性能与效率上实现了均衡,在保证语音识别准确率的情况下,128 并发异步服务推理能够达到 2000 倍吞吐,即 10 秒钟处理五个小时以上的音频。

强制对齐模型 Qwen3-ForcedAligner-0.6B 是基于 NAR LLM 推理的时间戳预测模型,支持 11 个语种的任意位置的灵活精准的强制对齐,其时间戳预测精度超越传统的 WhisperX,Nemo-Forced-Aligner 等模型,单并发推理 RTF 达到了高效的 0.0089。

阿里千问团队称,希望 Qwen3-ASR 系列模型的开源能够推动语音识别与理解的研究与发展,三个模型的结构与权重、以及一个全面易用的推理框架将一并开源。

模型列表:

IT之家附官方介绍如下:

Qwen3-ASR

Github:

HuggingFace:

ModelScope:

https://www.modelscope.cn/collections/Qwen/Qwen3-ASR

Huggingface Demo:

ModelScope Demo:

论文:

https://github.com/QwenLM/Qwen3-ASR/blob/main/assets/Qwen3_ASR.pdf

阿里云百炼 API:

https://help.aliyun.com/zh/model-studio/qwen-real-time-speech-recognition

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片