小红书语音识别新突破!开源FireRedASR,中文效果新SOTA

小红书语音识别新突破!开源FireRedASR,中文效果新SOTA
2025年02月09日 13:03 机器之心Pro

语音识别(ASR,Automatic Speech Recognition)是一种将语音转化为文字的技术,被广泛应用于智能语音交互和多媒体内容理解领域,例如语音助手、语音输入、视频字幕等场景。衡量中文 ASR 性能的主要指标是字错误率(CER,Character Error Rate),该值越低,表示模型的识别效果越好。

近日,小红书 FireRed 团队正式发布并开源了基于大模型的语音识别模型 ——FireRedASR,在语音识别领域带来新突破。在业界广泛采用的中文普通话公开测试集上,FireRedASR 凭借卓越的性能取得了新 SOTA!FireRedASR 在字错误率(CER)这一核心技术指标上,对比此前的 SOTA Seed-ASR,错误率相对降低 8.4%,充分体现了团队在语音识别技术领域的创新能力与技术突破。

  • 论文标题:FireRedASR: Open-Source Industrial-GradeMandarin Speech Recognition Modelsfrom Encoder-Decoder to LLM Integration

  • 论文地址:http://arxiv.org/abs/2501.14350

  • 项目地址:https://github.com/FireRedTeam/FireRedASR

FireRedASR 介绍

FireRedASR 系列模型包含两种核心结构:FireRedASR-LLM 和 FireRedASR-AED,分别针对语音识别的极致精度和高效推理需求量身打造。团队开源了不同规模的模型和推理代码,旨在满足全面覆盖多样化的应用场景。

FireRedASR-LLM 和 FireRedASR-AED 的结构如下图所示: 

  • FireRedASR-LLM(左):结合了文本预训练 LLM 的能力,为极致的 ASR 准确率而生,适用于对准确率要求极高的应用场景。

  • FireRedASR-AED(右下):基于经典的 Attention-based Encoder-Decoder 架构,FireRedASR-AED 通过扩展参数至 1.1B,成功平衡了 ASR 语音识别的高准确率与推理效率。

实验及结果

下图是 FireRedASR 和其他 ASR 大模型的对比,在业界常用的中文普通话公开测试集上,FireRedASR-LLM(8.3B 参数量)取得了最优 CER 3.05%、成为新 SOTA!FireRedASR-AED (1.1B 参数量)紧随其后取得 3.18%,两者均比 Seed-ASR(12+B 参数量)的 3.33% 低、并且参数量更小。FireRedASR 也比 Qwen-Audio、SenseVoice、Whisper、Paraformer 取得了更优的 CER。

(aishell1 表示 AISHELL-1 测试集,aishell2 表示 AISHELL-2 iOS 测试集,ws_net 和 ws_meeting 分别表示 WenetSpeech 的 Internet 和 Meeting 测试集)

FireRedASR 不仅在公开测试集上表现优异,在多种日常场景下,也展现了卓越的语音识别效果。

如下图所示,在由短视频、直播、语音输入和智能助手等多种来源组成的 Speech 测试集上,与业内领先的 ASR 服务提供商(ProviderA)和 Paraformer-Large 相比, FireRedASR-LLM 的 CER 相对降低 23.7%~40.0%,优势十分明显。

值得一提的是,在需要歌词识别能力的场景中,FireRedASR-LLM 也表现出极强的适配能力,CER 实现了 50.2%~66.7% 的相对降低,这一成果进一步拓宽了 FireRedASR 的应用范围,使其不仅能胜任传统语音识别需求,还能在创新性的多媒体场景中大放异彩。

值得一提的是,FireRedASR 在中文方言和英语场景中同样表现不俗。在 KeSpeech(中文方言)和 LibriSpeech(英语)测试集上,FireRedASR 的 CER 显著优于此前的开源 SOTA 模型,使其在支持好普通话 ASR 的前提下,在中文方言和英语上也足够通用,进一步凸显了其鲁棒的语言适配能力。

好奇为什么 FireRedASR 能取得如此好的效果吗?可以参考 FireRed 团队公开的技术报告一探究竟,并且模型和代码已经全部开源(链接见上文)。

FireRed 团队希望通过开源能为语音社区做出贡献,促进 ASR 的应用和端到端语音交互的发展。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片