刚刚,OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平

刚刚,OpenAI在ICPC 2025编程赛上满分登顶,Gemini也达到金牌水平
2025年09月18日 12:29 机器之心Pro

机器之心报道

编辑:杨文、+0

IMO 之后,OpenAI 与 Gemini 双双加冕 ICPC 2025 金牌。

就在刚刚,OpenAI 和 Gemini 都声称达到了 ICPC 金牌水平。

其中,OpenAI 在 5 个小时内解决了所有 12 个问题,相当于人类排名第 1 位,超过了所有参赛大学团队。

而 Gemini 解决了 12 个问题中的 10 个,总用时 677 分钟,达到了金牌水平,如果与人类团队比较,将排名第 2。

人类团队方面,俄罗斯圣彼得堡国立大学的参赛队伍排名第 1,解决了 11 个问题。北京交通大学、清华大学、北京大学、中国科学技术大学的参赛队伍分别排名 2、4、5、9。

 ICPC,即国际大学生程序设计竞赛,是全球公认的历史最悠久、规模最大、最负盛名的大学级算法编程竞赛,它比 IMO 等高中奥林匹克竞赛更高一级。每年,来自近 3000 所大学和 103 个国家的参赛者齐聚一堂,挑战现实世界的编程难题。

今年的 ICPC 世界决赛于 9 月 4 日在阿塞拜疆的巴库举行,汇集了来自竞赛早期阶段的顶级队伍。在五小时的比赛中,每支队伍解决了一组复杂的算法问题。最终排名严格依据两个原则:只有完美的解决方案才能得分,每一分钟都至关重要。在 139 支参赛队伍中,只有前四支队伍获得了金牌。

下面是 ICPC 的原题,感兴趣的读者可以亲自尝试一下。

https://worldfinals.icpc.global/problems/2025/finals/index.html

OpenAI 5 小时内解决 12 个问题

超过人类团队

OpenAI 的 与人类顶尖选手在完全同等的条件下竞技:面对完全相同的赛题,拥有相同的 5 小时时限,并由与 ICPC 全球总决赛标准一致的本地系统进行实时评判。

整个过程中,AI 系统在没有任何定制化测试工具的辅助下,独立分析问题并自主决定提交最终答案。

比赛结果令人瞩目:在全部 12 个问题中,该 AI 系统对其中 11 个问题的首次提交便获得了正确答案。即便是全场难度最高、困住所有人类队伍的最后一个问题,AI 也在经过 9 次尝试后成功攻克。相比之下,本次竞赛表现最出色的人类团队成功解决了 11 个问题。

其中问题 G,OpenAI 尝试 9 次后成功解决,该问题也是 DeepMind 未能解决的两道难题之一。作为参考,解题速度最快的人类选手也耗时 270 分钟(竞赛总时长 300 分钟)。

OpenAI 方面透露,此次参赛的 AI 由一个「通用推理模型集成体」构成,并未针对 ICPC 竞赛进行任何专门的优化或训练。

在解题过程中,系统结合了其下一代模型 GPT-5 与一个前沿的实验性推理模型。其中,GPT-5 精准地解答了 11 题,而那款实验性模型则最终完成了对最难题目的关键一击。

这一成果是 OpenAI 一系列展示推理系统惊人进步速度的绝佳里程碑。同一组模型已在国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)等竞赛中证明了其实力,充分印证了其强大的通用性与广泛的适用潜力。

OpenAI 员工 Borys Minaiev 和 Mostafa Rohaninejad 也在 X 上发文庆贺。

Borys Minaiev

Borys Minaiev 是 OpenAI 的研究员,专注于大规模推理模型的开发与应用,尤其在编程竞赛和复杂推理任务中展现了卓越能力。

他毕业于圣彼得堡国立信息技术、机械与光学大学(ITMO University),并在编程竞赛领域取得了显著成就。2015 年,他作为 ITMO 大学队员之一,赢得了国际大学生程序设计竞赛(ICPC)世界总决赛的冠军,这是该赛事历史上唯一一支在比赛结束前解决所有问题的队伍。

在加入 OpenAI 后,Borys Minaiev 成为大型推理模型研究的核心成员之一,参与了多个关键项目,包括 o1、o3 和 o4-mini 等模型的开发。

此外,Borys Minaiev 还活跃于开源社区,在 GitHub 上分享了多个项目,并在个人博客中深入探讨了模拟退火算法、Rust 编程语言以及 AI 在教育中的应用等主题。

Mostafa Rohaninejad

Mostafa Rohaninejad 是 OpenAI 的研究科学家,专注于元学习、强化学习和人工智能系统的推理能力。

他于 2023 年加入 OpenAI,参与了多个关键项目,包括 GPT-5 和 OpenAI o1 等大规模推理模型的开发。

在加入 OpenAI 之前,Mostafa 曾在加州大学伯克利分校攻读计算机科学硕士学位,并在该校的 BAIR 实验室与 Pieter Abbeel 教授合作,研究元学习和生成模型。他是著名的 SNAIL 架构的共同作者,该架构在少样本学习任务中表现出色。

Mostafa 的研究兴趣主要集中在如何使人工智能系统具备更强的推理能力和适应性,特别是在复杂任务和动态环境中的表现。他在 OpenAI 的工作不仅推动了 AI 技术的发展,也为实现更智能、更人性化的 AI 系统奠定了基础。

谷歌 Gemini 解决 10 个难题

达到金牌级别

Gemini 2.5 Deep Think 的高级版本在 ICPC 规则下,以远程在线环境参与竞赛,并在比赛组织者的指导下进行。

它比人类参赛者晚了 10 分钟开始,但在五小时的时间限制内正确解决了 12 个问题中的 10 个,达到了金牌级表现。

Gemini 2025 ICPC 世界总决赛代码:https://github.com/google-deepmind/gemini_icpc2025

Gemini 在仅 45 分钟内就解决了 8 个问题,接着在三小时内又解决了两个问题,使用了各种高级数据结构和算法来生成解决方案。通过 677 分钟的总时间解决了 10 个问题,若与大学队伍的成绩相比,Gemini 2.5 Deep Think 将排名第二。

图片显示了在 2025 年 ICPC 世界决赛中每个问题的解题时间。Gemini 的时间以蓝色表示,最快的大学队伍时间以灰色表示。

值得一提的是,Gemini 在半小时内成功解决了 C 题,而这道题在竞赛中没有任何大学队伍解出。

这道题目要求找到一种解决方案,通过一系列相互连接的管道将液体分配到多个水库中,目标是找到一种配置使液体尽快充满所有水库。由于每个管道可能是开放的、关闭的,甚至是部分开放的,因此存在无限多种可能的配置,这使得寻找最优配置变得非常困难。

Gemini 找到了一种有效的解决方案:它首先假设每个水库都有一个「优先级值」,表示该水库相对于其他水库的偏好程度。在给定一组优先级值后,可以通过动态规划算法找到最优的管道配置。Gemini 发现,通过应用极小极大定理,可以将原问题转化为寻找使得流量最受限制的优先级值。利用优先级值与最优流量之间的关系,Gemini 通过嵌套三分查找迅速找到最优的优先级值,从而成功解决了 C 题。

据谷歌内部研究表明,类似版本的 Gemini 2.5 Deep Think 也可以在 2023 年和 2024 年 ICPC 世界总决赛中取得金牌级别的表现,与全球前 20 名的编程选手表现相当。

此外,谷歌官方博客还感谢了一众这个项目背后的贡献者。其中 Hanzhao (Maggie) Lin 领导了 Gemini 竞赛编程和 ICPC 2025 工作的整体技术方向,并与 Heng-Tze Cheng 共同领导了整体研究和执行工作。

Hanzhao (Maggie) Lin

Hanzhao (Maggie) Lin 是 Google DeepMind 的高级研究科学家,专注于大规模语言模型和多模态系统的研究与开发。

她的研究方向主要涵盖大规模语言模型、系统架构以及其在教育和复杂推理中的应用。她在 AI 领域的贡献包括参与了 Google DeepMind 的 LaMDA 和 PaLM 2 等大型语言模型的后训练研究,并推动了模型在多模态理解、推理和工具使用等方面的能力提升。

此外,她还主导了 Gemini Deep Think 模型在国际数学奥林匹克(IMO)竞赛中的应用,取得了金牌级别的表现,展示了 AI 在复杂数学推理中的潜力。

Heng-Tze Cheng

Heng-Tze Cheng 是 Google DeepMind 的研究总监兼首席研究科学家,专注于大语言模型和对话 AI 的研究与应用。他在自然语言处理(NLP)、推荐系统、强化学习和多模态推理等领域具有深厚的研究背景。

他本科毕业于台湾大学电机工程系,2013 年于卡内基梅隆大学获得电气与计算机工程博士学位,研究方向包括机器学习和多模态信号处理,2014 年加入 Google,先后在 Google Brain 和 DeepMind 担任技术领导职务。

ICPC 所要求的技能,比如理解复杂问题、制定多步骤的逻辑计划并精准执行,正是许多科学和工程领域所需的核心能力。

AI 此次在 ICPC 中获得金牌级成绩凸显了 AI 在提供创新性解决方案方面的独特优势,能够有效补充人类专家的技能和知识。这也表明,AI 正从单纯的信息处理工具,转变为协助解决复杂推理问题的关键力量。

推理金牌AI
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片