OpenAI 最新论文:o3 在 IOI 2024 严格规则下拿到 395.64 分达成金牌成就

OpenAI 最新论文:o3 在 IOI 2024 严格规则下拿到 395.64 分达成金牌成就
2025年02月12日 19:16 IT之家

2 月 12 日晚间消息,在中国 AI 公司的影响下,OpenAI 公开了 O 系列强化学习的秘密。

今天(2 月 12 日),OpenAI 发布了关于推理模型在竞技编程中应用的研究论文报告《Competitive Programming with Large Reasoning Models》,文中放出了 OpenAI 三个推理模型:o1、o1-ioi、o3 在 IOI(国际信息学奥林匹克竞赛)和 CodeForces(全球知名在线编程竞赛)中的成绩。

论文显示,在 IOI 2024 中,o3 在严格规则下拿到 395.64 分,达成金牌成就,并且在 CodeForces 上的表现与人类精英选手相当。

论文中还提到,中国的 DeepSeek-R1 和 Kimi k1.5 通过独立研究显示,利用思维链学习(COT)方法,可显著提升模型在数学解题与编程挑战中的综合表现。R1、k1.5 是 DeepSeek 和 Kimi 在 1 月 20 日同时发布的新型推理模型。

该论文通过强化学习(RL)训练的大型语言模型在复杂编码和推理任务上的性能提升,比较了通用推理模型与针对特定领域优化的系统在竞技编程中的表现。研究结果表明,增加强化学习训练计算和测试时计算可显著提升模型性能,使其接近世界顶尖人类选手,这些模型将在科学、编码、数学等领域的 AI 应用中解锁新的应用体验。

论文编程数学
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片