阿里千问 3 登顶全球最强开源模型,性能超越 DeepSeek-R1、OpenAI-o1

阿里千问 3 登顶全球最强开源模型,性能超越 DeepSeek-R1、OpenAI-o1
2025年04月29日 14:54 极客公园

摘要

阿里巴巴开源新一代通义千问模型 Qwen3,登顶全球最强开源模型。

4 月 29 日凌晨,阿里巴巴开源新一代通义千问模型 Qwen3(简称千问 3),参数量仅为 DeepSeek-R1 的 1/3,成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球顶尖模型,登顶全球最强开源模型。千问 3 是国内首个「混合推理模型」,「快思考」与「慢思考」集成进同一个模型,对简单需求可低算力「秒回」答案,对复杂问题可多步骤「深度思考」,大大节省算力消耗。

千问 3 采用混合专家(MoE)架构,总参数量 235B,激活仅需 22B。千问 3 预训练数据量达 36T,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中。千问 3 在推理、指令遵循、工具调用、多语言能力等方面均大幅增强,即创下所有国产模型及全球开源模型的性能新高:在奥数水平的 AIME25 测评中,千问 3 斩获 81.5 分,刷新开源纪录;在考察代码能力的 LiveCodeBench 评测中,千问 3 突破 70 分大关,表现甚至超过 Grok3;在评估模型人类偏好对齐的 ArenaHard 测评中,千问 3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。性能大幅提升的同时,千问 3 的部署成本还大幅下降,仅需 4 张 H20 即可部署千问 3 满血版,显存占用仅为性能相近模型的三分之一。

千问 3 性能图千问 3 性能图

千问 3 还提供了丰富的模型版本,包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型,每款模型均斩获同尺寸开源模型 SOTA(最佳性能):千问 3 的 30B 参数 MoE 模型实现了 10 倍以上的模型性能杠杆提升,仅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能;千问 3 的稠密模型性能继续突破,一半的参数量可实现同样的高性能,如 32B 版本的千问 3 模型可跨级超越 Qwen2.5-72B 性能。

同时,所有千问 3 模型都是混合推理模型,API 可按需设置「思考预算」(即预期最大深度思考的 tokens 数量),进行不同程度的思考,灵活满足 AI 应用和不同场景对性能和成本的多样需求。比如,4B 模型是手机端的绝佳尺寸;8B 可在电脑和汽车端侧丝滑部署应用;32B 最受企业大规模部署欢迎,有条件的开发者也可轻松上手。

Qwen3 开源模型家族

千问 3 为即将到来的智能体 Agent 和大模型应用爆发提供了更好的支持。在评估模型 Agent 能力的 BFCL 评测中,千问 3 创下 70.8 的新高,超越 Gemini2.5-Pro、OpenAI-o1 等顶尖模型,将大幅降低 Agent 调用工具的门槛。同时,千问 3 原生支持 MCP 协议,并具备强大的工具调用(function calling)能力,结合封装了工具调用模板和工具调用解析器的 Qwen-Agent 框架,将大大降低编码复杂性,实现高效的手机及电脑 Agent 操作等任务。

据了解,千问 3 系列模型依旧采用宽松的 Apache2.0 协议开源,并首次支持 119 多种语言,全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace 等平台下载模型并商用,也可以通过阿里云百炼调用千问 3 的 API 服务。个人用户可立即通过通义 APP 直接体验千问 3,夸克也即将全线接入千问 3。

据悉,阿里通义已开源 200 余个模型,全球下载量超 3 亿次,千问衍生模型数超 10 万个,已超越美国 Llama,成为全球第一开源模型。

阿里
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片