新经济视界|国产大模型加速迭代性能逼近甚至赶超GPT-4|迭代|文心_新浪科技

封面新闻记者欧阳宏宇

继文心、星火之后，又一中国造大模型性能赶超GPT-4。

5月9日，阿里云正式发布通义千问2.5，模型性能全面赶超GPT-4 Turbo。据阿里云智能集团首席技术官周靖人介绍，在中文语境下，文本理解、文本生成、问答建议、闲聊对话和安全风险等多项能力上赶超GPT-4。

据了解，相比通义千问2.1版本，通义千问2.5在理解能力、逻辑推理、指令遵循、代码能力上均得到提升。在权威基准OpenCompass上，通义千问2.5得分追平GPT-4 Turbo。同时，通义千问最新开源的1100亿参数模型在多个基准测评，超越Meta的Llama-3-70B。

国产大模型技术爆发一年多，在全球范围内也从曾经的追赶者到如今的并行者甚至引领者。清华大学基础模型研究中心联合中关村实验室在上月底发布的报告显示，在语义理解、阅读理解等能力上，文心一言4.0已超过GPT-4 Turbo。科大讯飞也在今年初透露，讯飞星火V3.5整体已经接近GPT-4水平，尤其在数学、语言理解、语音交互能力超过GPT-4 Turbo。

在大模型投入上，中国的大模型公司取得重大突破，背后是基于各种预训练模型框架和开源项目，各种模型如雨后春笋般诞生。不过，在业内人士看来，和国外大模型相比，国内的大模型发展起步晚一些。加上高性能算力的限制和数据质量的差距等，国内研发的大模型无论规模还是核心能力，与世界先进水平还存在一年左右的差距。

据上海人工智能实验室评测，虽然国产大模型在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平；但在金融、工业等要求可靠的场景落地需要的关键能力上相比于GPT-4还存在差距。

“国内大模型要整体赶超GPT-4 Turbo等国际顶尖的大模型，在复杂推理、可靠地解决复杂问题等方面，仍需下大功夫。”上海人工智能实验室领军科学家林达华指出，这关系到落地应用时大模型的可靠性，比如，随着大模型进入商用，在金融场景下若要分析公司财报，甚至是工业领域分析技术文档，数学等方面的计算能力就会成为一个壁垒。