OpenAI o3模型压轴登场,攻破极难数学题,执行一次任务数千美元

OpenAI o3模型压轴登场,攻破极难数学题,执行一次任务数千美元
2024年12月21日 09:05 网易新闻

在 OpenAI “十二连发”活动的最后一天,新一代推理模型 o3 终于压轴登场!

CEO 山姆·奥特曼(Sam Altman)在直播中宣布了新一代 o3 家族的诞生,包括 o3 和 o3-mini 两个版本,这是对今年早些时候发布的 o1 模型的全面升级。

图 | OpenAI 直播演示 o3(来源:OpenAI)图 | OpenAI 直播演示 o3(来源:OpenAI)

至于中间的 o2 哪去了,奥特曼在直播中幽默地承认:“秉承着 OpenAI 一贯取名特别糟糕的传统,我们把它命名为 o3。” 当然,真实原因是为了避免与英国电信服务商 O2 可能产生的商标纠纷。

目前,o3和 o3-mini 尚未对公众广泛开放。OpenAI 计划首先向安全研究人员开放测试权限。奥特曼表示,o3-mini 将于明年 1 月底推出,并在不久后发布 o3。

根据 OpenAI 目前公布的信息,o3 展现出了前所未有的性能,不过在高算力设置下,单个任务的计算成本也是相当高昂(数千美元)。

图 | o 系列模型的性能与成本对比(来源:ARC-AGI/OpenAI)图 | o 系列模型的性能与成本对比(来源:ARC-AGI/OpenAI)

在多项基准测试中,o3 不仅超越了前辈 o1,更是几乎是碾压所有其他主流 AI 模型。

例如,在 2024 年 AIME 美国数学邀请赛考试中,o3 仅做错一道题,取得了 96.7%的高分。

在研究生水平的生物、物理和化学问题集 GPQA Diamond 测试中,该模型取得了 87.7%的成绩。这意味着,面对此类科学知识,它的水平已经接近专业研究生水平。

图 | o 系列模型的 AIME 和 GPQA Diamond 成绩(来源:OpenAI)图 | o 系列模型的 AIME 和 GPQA Diamond 成绩(来源:OpenAI)

在 SWE-bench Verified 编程能力测试中,o3 实现了 71.7%的准确率,而 o1 只有 48.9%。

另外在 Competition Code 测试中,o3 取得了 2727 Elo 的高分,超越 o1 900 多分。与人类相比,在测试中拿到 2400 分就已经超越了 99%的人类工程师,o3 的分数能在人类里排第 150 名。

图 | o 系列模型的编程测试成绩(来源:OpenAI)图 | o 系列模型的编程测试成绩(来源:OpenAI)

更令人瞩目的是,在 EpochAI 的 FrontierMath 数学难题基准测试中,o3 解决了25.2%的问题,而在此前的研究中,其他所有模型的成绩甚至都未能超过2%。

图 | o3 在 FrontierMath 测试中的成绩(来源:OpenAI)图 | o3 在 FrontierMath 测试中的成绩(来源:OpenAI)

FrontierMath 包含的数学难题是陶哲轩等数十位数学家共同设计的,旨在评估 AI 模型的高级推理能力,其中包含了目前数学研究中的主要细分领域,全都是难度极高的数学挑战。

面对这些问题,顶尖人类数学家可能需要数小时,甚至数天的时间才能解决,但 o3 最快只需要几分钟。人们原本认为这些难题可以在很长一段时间里难住 AI,但 o3 在处理复杂数学问题方面的跨越式进步,让许多人惊讶不已。

o3 的另一项重要突破是在 ARC-AGI 基准测试中的表现。这是一项自 2019 年创建以来一直未被攻克的视觉推理基准测试,用于评估 AI 系统能否在训练数据之外高效地获取新技能。

在高算力设置下,o3 取得了 87.5%的成绩,超过了人类 85%的平均水平。即使在低算力设置下,它也取得了 75.7%的成绩,是 o1 性能的三倍。

图 | ARC-AGI 公布的 o3 测试成绩,同时也暴露了该模型执行任务的成本,高计算设置的成本是低设置的 172 倍(来源:ARC-AGI/X)

ARC Prize 基金会主席格雷格·卡姆拉特(Greg Kamradt)对此评价道:“看到这些结果,我不得不重新思考AI的能力极限。”

ARC-AGI 测试主要考察 AI 模型是否能像人类一样掌握图形变换的规律,很多问题人类可以依靠直觉轻易解决,却难倒了一大批 AI。

图 | ARC-AGI 测试题(来源:ARC-AGI)图 | ARC-AGI 测试题(来源:ARC-AGI)

在这一点上,o3超越人类分数的意义重大,因为它暗示着AI系统在推理能力方面可能已经接近甚至超越人类水平,也是实现通用人工智能(AGI)道路上的重要突破。

o3 等推理模型的特点在于其“思维链”技术。与传统 AI 模型不同,推理模型会在回应之前进行“思考”,通过一系列行动来规划和推导解决方案。

这个过程类似于人类在解决复杂问题时的思考方式,模型会暂停、考虑相关提示,并在过程中“解释”其推理过程。虽然这个过程会比普通模型多花几秒到几分钟的时间,但换来的是在物理和数学等领域更可靠的表现。

新发布的 o3-mini 则引入了“自适应思考时间”功能。用户可以在低、中、高三种运算能力之间进行选择,通过调整模型的“思考时间”来平衡性能和效率。

图 | o3-mini 系列的编程性能和成本对比(来源:OpenAI)图 | o3-mini 系列的编程性能和成本对比(来源:OpenAI)

计算能力越高,模型的思考时间就越长,表现就越出色。这种灵活性使得用户可以根据具体需求和资源限制来选择最适合的运算模式。

不过,这些突破性进展也伴随着潜在风险。

安全测试人员发现,o1 的推理能力使其比传统的“非推理”模型更容易试图欺骗人类用户,这种情况甚至超过了 Meta、Anthropic 和谷歌等公司的领先 AI 模型。

性能更强的 o3 是否会表现出更高的欺骗倾向,还有待OpenAI的红队合作伙伴发布测试结果。

为此,OpenAI 表示其正在使用“审慎对齐(deliberative alignment)”技术来确保 o 系列模型符合其安全原则,并在一项新研究中详细介绍了这项成果(论文在文末链接)。

(来源:OpenAI)(来源:OpenAI)
海量资讯、精准解读,尽在新浪财经APP
推理 AI

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 12-30 钧崴电子 301458 --
  • 12-30 赛分科技 688758 --
  • 12-24 星图测控 920116 6.92
  • 12-23 黄山谷捷 301581 27.5
  • 12-20 天和磁材 603072 12.3
  • 新浪首页 语音播报 相关新闻 返回顶部