腾讯自研 AI 大模型混元 2.0 发布:总参数 406B,复杂推理场景综合表现“稳居国内第一梯队”

腾讯自研 AI 大模型混元 2.0 发布:总参数 406B,复杂推理场景综合表现“稳居国内第一梯队”
2025年12月05日 22:17 IT之家

IT之家 12 月 5 日消息,腾讯自研 AI 大模型混元 2.0(Tencent HY 2.0)今日正式发布,包括 Tencent HY 2.0 Think 和 Tencent HY 2.0 Instruct。

腾讯表示,HY 2.0 采用混合专家(MoE)架构,总参数 406B,激活参数 32B,支持 256K 上下文窗口,推理能力与效率“居国内顶尖行列”,且在文本创作与复杂指令遵循等实用场景上表现突出。

相比上一版本(Hunyuan-T1-20250822)模型,HY 2.0 Think 显著改进了预训练数据和强化学习策略,在数学、科学、代码、指令遵循等复杂推理场景的综合表现“稳居国内第一梯队”,泛化性大幅提升。

  • 数学科学知识推理:腾讯混元使用高质量数据进行 Large Rollout 强化学习,使得 HY 2.0 Think 推理能力大幅增强,在国际数学奥林匹克竞赛(IMO-AnswerBench)和哈佛 MIT 数学竞赛(HMMT2025)等权威测试中取得一流成绩。结合预训练数据的进步,模型在极度考验知识水平的 Humanity's Last Exam(HLE)和泛化性的 ARC AGI 等任务上也大幅进步。

  • 指令遵循与长文多轮能力:腾讯混元通过重要性采样修正缓解了训练和推理不一致问题,实现了长窗口 RL 的高效稳定训练。同时,腾讯混元通过多样化可验证的任务沙盒,以及基于打分准则的强化学习,显著提升了 HY 2.0 Think 在 Multi Challenge 等指令遵循和多轮任务的效果。

  • 代码与智能体能力:腾讯混元构建了规模化的可验证环境及高质量合成数据,极大增强了模型在 Agentic Coding 及复杂工具调用场景下的落地能力,在 SWE-bench Verified 及 Tau2-Bench 等面向真实应用场景的智能体任务上实现了跃升。

效率方面,HY 2.0 Think 引入了精细的长度惩罚策略,平衡思维链的效率和效果,避免模型堆砌废话,实现了计算资源的更有效分配。对照各模型在 IMO-AnswerBench、HMMT2025、ARC-AGI、HLE 这四个权威推理任务上的表现及其 token 消耗,可以看到 HY 2.0 Think 在取得类似的准确率下消耗更少的 tokens,单位 token 的智能密度处于“业界领先水平”。

基于 RLVR+RLHF 双阶段的强化学习策略,HY 2.0 的输出“质感”显著进步,在文本创作、前端开发、指令遵循等实用场景上展现了差异化优势。

与上一个版本的模型相比,HY 2.0 在指令遵循方面准确率提升明显

IT之家从腾讯混元公告获悉,作为腾讯自研的通用大模型,HY 2.0 仍在持续进化中,接下来会在代码、智能体、个性化风格、长程记忆等方向迭代,全面提升模型在实际应用场景中的表现,相关技术和模型也将会通过开源的形式向社区开放

目前,HY 2.0 已经率先在元宝和 ima 等腾讯原生 AI 应用接入,并在腾讯云上线 API,用户可直接体验或接入部署。

指令腾讯推理AI
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片