电厂 | 奇富科技新一代“QiFree”，搅动AI语音技术风云|AI_新浪财经

作者商迪安

随着大模型的场景化应用不断深入，AI创新的能量也开始从中心向边缘扩散。作为大模型落地的最佳场景，金融科技行业依托丰富的数据积累更是站在了这波技术创新的前沿。从智能获客到智能投顾、智能客服、智能终端，如今，金融大模型带来的产品创新已经嵌入到了金融服务的各个角落。

不过，这波产业创新的浪潮仍未止息。9月份，中国头部金融科技企业奇富科技在国际顶级会议上宣布自研的语音识别系统“QiFree”取得重大突破，在中文语音识别领域实现了指数级的精准度提升，并打破了单一模型只能识别特定单一方言的困境，可同时支持全国绝大部分口音方言实现即说即译。

奇富科技在INTERSPEECH 2024会议做主旨演讲

众所周知，语音识别技术对于大模型的交互能力至关重要。此前人机语言交互需要多种模型和技术才能实现，在识别精度、响应速度、情绪感知等方面也都不尽人意，而奇富科技采用自研Qifusion语音识别框架，，结合多任务学习和自适应特征抽取和交叉信息融合等综合创新，一举将国内语音识别技术推到了世界前沿。

根据论文数据显示，在中文口音与方言语音识别领域的权威测试集KeSpeech的性能对比中，奇富科技新一代“QiFree”系统，口音准确率达到79.10%，远超KeSpeech61.13%的基准线，而字错误率也优于KeSpeech10.38%的基准线，低至8.08%，其中，普通话的字错误率更低至6.18%。

奇富科技“QiFree”性能效果与KeSpeech Baseline对比

当然，在这个关键的技术领域，作为全球AI浪潮的引领者，Open AI也一直没有闲着。今年5月份，Open AI就推出多模态大模型GPT-4o，将语音响应速度压缩至232毫秒。10月2日，Open AI在第二届开发者大会上又重磅推出实时API公测版，进一步强化GPT-4o的实时语音交互能力。

从这个意义上来说，至少在语音识别领域，奇富科技所代表的产业力量与Open AI所代表的中坚力量已经形成技术共振。

另辟蹊径，奇富科技开启语音技术新时代

值得注意的是，不同于Open AI所注重的通用性，奇富科技的语音识别技术源自于产业深处，不仅强调系统能在复杂语境下精准捕捉语音特征，有效降低误识别率，为用户提供流畅的人机交互体验，还要尽可能压缩技术模型和计算资源，降低能耗和成本，为业务带来实实在在的经济效益。

当前，市面上充斥着各种各样的语音技术方案，但几乎没有能同时兼顾上述两个要素的“完美选择”。奇富科技首席算法科学家费浩峻告诉电厂，最初内部也是采用第三方的产品，但业务端做着做着就发现了各种问题。

首先是随着业务精度的不断深入，市面上的通用语音技术方案难以满足金融科技的实际场景需求。比如，在信贷行业所面临的用户人群，相对比较分散且下沉，对话内容常常夹杂着天南海北的地方方言，对语音技术的数据训练样本提出了很高要求，但很多技术提供商缺乏相应的条件或动力。

“主流厂商更关注通用性”，费浩峻解释称，这类长尾需求只有足够贴近产业才能发现，很多厂商自己难以触及到，所服务的客户如果业务精度不够，也同样难以触及到。其次，语音技术服务的收入并不高，从投入产出比的角度来说，他们也没有足够的动力去充分挖掘和覆盖这些长尾需求。

反映到实际产品中就是，市面上的语音技术解决方案通常都进化缓慢，很长一段时间，业界的字错误率都保持在13%左右，一直到最近才优化到10%左右。对于奇富科技这样的头部企业来说，10%的字错率难以匹配现有的业务精度，甚至无法准确把握用户意图，导致整个系统转化率下滑。

此外，对于金融科技行业来说，无论底层技术怎样更迭，最终的目标仍是从更广泛、更多维的角度去理解用户，实现千人千面的个性化服务，但市面上大多数的语音识别技术，提供的仅仅是工具而没有服务，更无法帮助企业打通从语音输入到智能输出的全部断层，并在算法中注入人文关怀。

由于现实与理想的种种落差，奇富科技在语音识别技术领域最终被迫从外采走向了自研。从成本来看，这无疑是更重的模式，但费浩峻认为，奇富科技的业务量足够大、精度也足够高，天然就具备自研基础，如果结合自研的金融大模型，反哺到整个业务生态中必将产生非常直接的正反馈。

纵观整个金融科技行业，坐拥超2亿用户、撮合交易破2万亿的奇富科技也是少数具备全域自研实力的巨头。此前，奇富科技已经成功打造了超级增长引擎Glaucus、低代码插件毓智AI、智能客服奇富Copilot等多个基于AI大模型的产品，截至目前，奇富科技研发团队已近700人。

成本、效率全面碾压友商，新一代QiFree凭什么？

与过往类似，奇富科技在QiFree项目上也采用了“特种部队”式的自研作风，但整个团队仅用了1年时间就完成了0到1的突破。

从2021年开始，奇富科技就单独组建了一支专项团队，并结合金融科技产业的实际需求，对AI+音频在业务场景的赋能进行积极地探索和尝试，例如一种名为MS-SENet的新型网络结构。根据费浩峻介绍，这种结构下提取的特征信息与原始信息融合，可以帮助系统获得更强的语音情绪表征向量。

这意味着，即便在有更多情感类别和较低数据量的情况下，MS-SENet仍然能保持出色的识别能力。比如，在贷后投诉的实际应用中，奇富科技的语音识别技术就能感知到用户的异常情绪，并分析筛选出高风险客群进行人工疏导，而在这项功能的加持下，业务端的客诉率可降低4个百分点。

与此同时，为了覆盖更广泛的用户群体，奇富科技还开发了一套方言自由说模型，以解决地区口音差异带来的挑战。截至目前，奇富科技投喂的通用语料约为6000小时、方言语料数量约为2000小时，但方言测试集的字错率却仅为8.08%，远低于训练量更大的国内同行。

根据测试数据显示，当前，某国内头部云厂商的方言模型在经过了6万小时以上的数据训练之后，方言测试集的字错率约为15.61%，几乎是奇富科技QiFree的两倍，而在重庆话、四川话等难度较大的方言识别体系中，QiFree则展现出了更大幅度的优势，字错率要比该厂商低6成以上。

更重要的是，奇富科技在保持模型稳定性的同时还极大地压缩模型参数及部署成本。根据费浩峻透露，内部在自研过程中借鉴了过往小参数模型的探索经验，当前QiFree的模型参数仅为145M，但上一代系统的推理成本就已能够媲美上述厂商，新一代系统的整体部署成本更仅为其33%。

奇富科技“QiFree”关键指标与国内外一流科技公司对比

“QiFree在场景应用的过程中还有很大提升空间”，他告诉电厂，从2021年投入自研以来，QiFree已经先后完成了6次技术迭代，但语音识别是人机交互的第一环节，任何错误都可能对于意图识别甚至下游任务产生影响，进而影响到最终的业务收益，所以内部也在持续推进系统的技术升级。

“我们希望通过多模态识别的整合，最终打造一套功能全面、适应性强的语音识别解决方案。”费浩峻称，作为典型的基础模型，QiFree需要不断进行数据适应性训练，当前，在外呼机器人、智能质检、大模型通话分析等训练场景下仍有人为参与，但最理想的状态还是系统可以自我迭代。

为了不断接近理想状态，奇富科技还搭建了一套可视化跟踪体系——极光集成可视化平台。根据电厂了解，这个平台可以根据QiFree与用户之间的语音交流数据，不断反哺算法并优化模型，通常两周会进行一次更新，一个月左右进行一次迭代，而相关业绩指标的联动也可以通过系统呈现。

随着技术的不断成熟，QiFree的商业化蓝图也逐渐成型。根据费浩峻透露，早在系统还处在3.0版本的时候，内部就开始进行技术迁移，经过一年半的时间，当前奇富90%的业务都是依托QiFree来完成，未来公司会继续向金融以外的场景扩展、输出，帮助教育、医疗等传统行业实现智能化。

此外，奇富科技也在不断结合研发成果进行技术提炼，并向全球展示中国语音识别技术的进展。除了此次被INTERSPEECH 2024邀请做关于语音技术的主旨分享外，2023年，奇富科技关于情绪识别和语音合成框架的两篇论文先后被国际顶级会议ICASSP 2023和INTERSPEECH 2023接收，今年年初，另一篇关于语音情感计算的论文也再度入选ICASSP 2024。

可以预见的是，“QiFree”的横空出世，不仅将对国内外语音识别市场的竞争格局产生影响，或许也将带来一场席卷全球的技术革新风暴。