刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点

刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
2025年06月11日 08:24 机器之心Pro

今天凌晨一点,OpenAI 宣布:OpenAI o3-pro today.

前沿模型的轮流更新这一次轮到 OpenAI 了。

https://x.com/piet_dev/status/1932530536225935374https://x.com/piet_dev/status/1932530536225935374

从即日起,所有 Pro 订阅用户均可通过 ChatGPT 和 API 使用这款强大的推理模型。Team 用户也可在模型选择器选择使用它。而企业用户和教育用户还需等待下一周。

有趣的是,这一次发布 o3-pro,OpenAI 并未采用以往大家熟悉的发布形式(视频直播 + 博客文章),而只是简单地发布了几条介绍推文。

尽管如此,OpenAI CEO Sam Altman 还是表示: o3-pro「真是太聪明了!我第一次看到它相对于 o3 的胜率时,简直不敢相信。」他甚至还久违地发了一篇题为「温和的奇点(The Gentle Singularity)」的博客文章 —— 将在后文呈现。

下面我们先来看看 o3-pro 的基准测试表现,然后分享一下 Pro 用户们早期测试得到的案例。

o3-pro 的基准成绩

首先来看专家评估结果,下图展示了在多项任务上,o3-pro 相较于 o3 的胜率情况。

可以看到 o3-pro 有明显优势。OpenAI 表示,在专家评估中,评论者更喜欢 OpenAI o3-pro 而不是 o3 并具有一致性,这一结果凸显了其在科学、教育、编程、数据分析和写作等关键领域的性能提升。另外,评论者还对 o3-pro 的清晰度、全面性、指令遵从性和准确性给予了更高的评价。

与 OpenAI o1-pro 一样,OpenAI o3-pro 尤其擅长数学、科学和编程,以下的学术评估结果也证明了这一点。

另外,为了评估 OpenAI o3-pro 的关键优势,OpenAI 再次使用了严格的「4/4 可靠性」评估,即只有在四次尝试中(而不仅仅是一次)正确回答问题,模型才被视为成功,结果如下:

可以看到,o3-pro 的表现依然相当出色。

而 ARC Prize 也已经公布了该模型在 ARC-AGI 半私有评估数据集上的结果。意外的是,在这个基准上,o3-pro 的表现看起来与 o3 差不多,但成本明显更高。

当然,o3-pro 也可以使用 ChatGPT 已经集成的各种工具,包括搜索网页、分析文件、推理视觉输入、使用 Python、使用记忆个性化响应等等。

目前 OpenAI 尚未公布这款强大推理模型的系统卡,但由于 o3-pro 使用了与 o3 相同的底层模型,因此安全信息等数据也可以在 o3 系统卡中找到。

另外,根据模型文档,o3-pro 支持文本和图像两种输入模态,上下文窗口大小为 200k,最大输出 token 数为 100k,知识的截至时间为 2024 年 6 月 1 日,所以它本身并不具备近一年内的信息,但用户可以通过搜索和知识库等工具为其提供更多上下文。

至于定价,ChatGPT 用户自然需要先购买 200 美元的 Pro 订阅套餐。

而 API 定价为每百万输入 token 20 美元 / 每百万输出 token 80 美元,虽然比 o1-pro 便宜 87%,但依然还是相当贵的。OpenAI 同时也建议使用 o3-pro 的后台模式:长时间运行的任务将异步启动,从而防止超时。

同时,由于已经上线了 o3-pro,o3 的价格自然也就下降了:API 定价为每百万输入 token 2 美元 / 每百万输出 token 8 美元,也就是 o3-pro API 定价的十分之一。

网友实测

和所有前沿模型更新时一样,o3-pro 一上线就有不少网友对其进行了测试。首先来看个司空见惯的六角弹跳球实验。

https://x.com/flavioAd/status/1932530860063961288

测试者 Flavio Adamo 表示:「我已经秘密测试 o3-pro 一段时间了…… 比 o1-pro 便宜得多、更快、更精确(而且使用 o3 和 o3-pro 进行编程简直感觉是天壤之别)。」

生物医学科学家 Derya Unutmaz 则分享了一个更有趣的案例:与 o3-pro 合作开发免疫系统 2.0。

用户 @Suzacque 则分享了 o3-pro 在海报设计和分析中的卓越表现。
用户 @Suzacque 则分享了 o3-pro 在海报设计和分析中的卓越表现。
用户 @Suzacque 则分享了 o3-pro 在海报设计和分析中的卓越表现。用户 @Suzacque 则分享了 o3-pro 在海报设计和分析中的卓越表现。

用户 @adonis_singh 表示 o3-pro 可以 100% 地解决外科医生误导性注意力难题,并且从不怀疑自己。他感慨到:「这是真正巨大的进步。」他还表示该模型懂得何时需要思考 ——「在不需要思考的时候也会少思考很多,根据我的经验,它比我接触过的任何其他模型都更不阿谀奉承。(没有任何自定义指令 / 系统提示) 对于第一点,对于提示『Hi there』,o1 pro 思考了 28 秒,而 o3 pro 的回复时间不到 7 秒。」

该用户还让 o3-pro 使用纯 HTML、CSS 和 JS 在单个文件中制作的一个「非常酷的」极限空间行走模拟器。这个过程使用了 2 个提示词,得到了如下演示的结果。

当然,也有一些用户直言失望。

https://x.com/quietlogic22/status/1932533482355347669https://x.com/quietlogic22/status/1932533482355347669
https://x.com/JaydenDavisNC/status/1932532525634605364https://x.com/JaydenDavisNC/status/1932532525634605364

你已经体验过 o3-pro 了吗?不妨与我们分享一下你的看法。

最后,我们来看看 OpenAI 山姆・奥特曼这篇充满乐观未来主义的博客吧。

温和的奇点(The Gentle Singularity)

  • 作者:Sam Altman

  • 原文链接:https://blog.samaltman.com/the-gentle-singularity

我们已经超越了事件视界;腾飞已经开始。人类即将打造数字超级智能(digital superintelligence),而至少目前看来,它远没有想象的那么奇怪。

街道上还没有机器人行走,我们大多数人也还没有整天和 AI 对话。人们仍然会死于疾病,我们仍然无法轻易进入太空,而且关于宇宙,我们还有很多不理解的地方。

然而,我们最近构建了在很多方面都比人类更聪明的系统,并且能够显著提升使用者的产出。最不可能的部分已经过去;让我们获得 GPT-4 和 o3 等系统的科学洞见来之不易,但将引领我们走得更远。

AI 将在很多方面为世界做出贡献,但 AI 所推动的更快科学进步和生产力提升对于生活质量的提升而言将是非常巨大的;未来可能比现在更加美好。科学进步是整体进步的最大驱动力;想想我们还能拥有多少进步,就令人无比兴奋。

从某种意义上来说,ChatGPT 已经比任何人类都强大。数亿人每天都依赖它完成日益重要的任务;一项小小的新功能就能带来巨大的积极影响;而一个微小的不对齐(misalignment),加上数亿人的乘数,就可能造成巨大的负面影响。

2025 年,能够进行真正认知工作的智能体已经出现;编写计算机代码的方法早已不同。2026 年,我们很可能会看到能够提出全新见解的系统出现。2027 年,我们或许会看到能够在现实世界中执行任务的机器人到来。

更多的人将能够创作软件,以及艺术。但世界对软件和艺术的需求远超于此,只要专家能够接受新工具,他们可能仍然比新手更优秀。总的来说,到 2030 年,一个人能够完成比 2020 年多得多的工作,这将是一个重大转变,许多人将会找到从中受益的方法。

从最重要的方面来看,2030 年代可能不会有太大不同。人们仍然会爱他们的家庭、表达他们的创造力、玩游戏、在湖中游泳。

但在仍然非常重要的方面,2030 年代可能会与以往任何时候截然不同。我们不知道 AI 能超越人类智能水平到什么程度,但我们将会找到答案。

在 2030 年代,智力和能量 —— 想法,以及将想法付诸实践的能力 —— 将变得异常丰富。长期以来,这两者一直是人类进步的根本限制因素;有了丰富的智力和能量(以及良好的治理),理论上我们可以拥有任何其他东西。

我们已经生活在令人难以置信的数字智能之中,在最初的震惊之后,我们大多数人都已经相当习惯了。很快,我们就从惊讶于 AI 可以生成一个优美的段落,转变为想知道它什么时候可以生成一部优美的小说;或者从惊叹它能做出救命的医学诊断,到好奇它何时能研发出治愈方法;或者从惊叹它能编写一个小型计算机程序,到好奇它何时能创立一家全新的公司。奇点就是这样:奇迹变成日常,然后成为筹码。

我们已经听到科学家们说,他们的生产力比 AI 出现之前提高了两到三倍。高级 AI 之所以引人注目,原因有很多,但或许最重要的,莫过于我们能用它来更快地进行 AI 研究。我们或许能够发现新的计算基础、更好的算法,以及谁知道还有什么其他发现。如果我们能在一年或一个月内完成十年的研究成果,那么进步的速度显然会截然不同。

从现在开始,我们已经构建的工具将帮助我们获得进一步的科学洞见,并帮助我们创建更好的 AI 系统。当然,这与 AI 系统完全自主地更新其代码不同,但这仍然是递归式自我改进的早期版本。

还有其他自我强化的循环在起作用。经济价值创造已经启动了一个飞轮:不断增加基础设施建设,以运行这些日益强大的 AI 系统。而能够构建其他机器人的机器人(从某种意义上说,也包括能够构建其他数据中心的数据中心)也并非遥不可及。

如果我们必须以传统的方式制造出第一批百万数量级的人形机器人,但之后它们能够操作整个供应链 —— 开采和提炼矿物、驾驶卡车、运营工厂等等 —— 来制造更多机器人,而这些机器人又可以建造更多的芯片制造设施、数据中心等等,那么进展速度显然会大不相同。

随着数据中心生产的自动化,智能成本最终应该会收敛到接近电力成本。(人们经常好奇 ChatGPT 查询消耗了多少能源;平均每次查询消耗大约 0.34 瓦时,大约相当于烤箱的耗电量略高于一秒钟,高效灯泡的耗电量则为几分钟。它消耗的水量约为 0.000085 加仑;大约相当于十五分之一茶匙的水。

技术进步的速度将持续加快,人们也将继续能够适应几乎任何事物。虽然会有一些非常艰难的时刻,比如某些工作岗位会逐渐消失,但另一方面,世界将以惊人的速度变得更加富裕,以至于我们能够认真考虑以前从未考虑过的新政策理念。我们或许不会一下子就采纳一项新的社会契约,但几十年后回首往事,这些渐进式的变革将产生巨大的影响。

如果以史为鉴,我们会发现新的事情要做,新的东西要追求,并迅速吸收新的工具(工业革命后的工作变化就是一个很好的例子)。期望值会上升,但能力也会同样快速地提升,我们都会得到更好的东西。我们将为彼此创造更加美好的事物。人类比 AI 拥有一项长期而重要且令人好奇的优势:我们天生就关心他人以及他们的想法和行为,而我们不太关心机器。

一千年前,一位自给自足的农民会看着我们许多人的所作所为,说我们所做的工作是虚假的,认为我们只是在玩游戏自娱自乐,因为我们拥有充足的食物和难以想象的奢侈品。我希望一千年后,我们看待这些工作时,会认为它们非常虚假,而且我毫不怀疑,从事这些工作的人会感到无比重要和满足。

新的奇迹将以惊人的速度不断涌现。今天甚至很难想象到 2035 年我们会发现什么;也许我们会在今年解决高能物理问题,第二年就开始太空殖民;或者从今年的重大材料科学突破,到第二年实现真正的高带宽脑机接口。许多人会选择以大致相同的方式生活,但至少有些人可能会决定「接入互联网」。

展望未来,这听起来难以理解。但经历这一切或许会让人感到印象深刻,但并非不可避免。从相对论的角度来看,奇点是一点一点出现的,融合也是缓慢发生的。我们正在攀登指数级技术进步的长弧;它总是向前看是垂直的,向后看是平坦的,但它是一条平滑的曲线。(回想一下 2020 年,如果 2025 年就能实现接近通用 AI 的设想,那会是什么样子,而过去五年实际上却并非如此。)

在巨大的优势之外,也存在着严峻的挑战。我们确实需要解决技术和社会层面的安全问题,但考虑到其经济影响,广泛普及超级智能的使用权也至关重要。最佳的前进之路或许是这样的:

决协同问题,这意味着我们可以强有力地保证 AI 系统能够学习并朝着我们共同的长期目标行动(社交媒体信息流就是一个协同失调的 AI 的例子;驱动这些系统的算法非常擅长让你不断滚动浏览并清晰地了解你的短期偏好,但它们是通过利用你大脑中某些凌驾于长期偏好之上的东西来做到这一点的)。

然后,专注于让超级智能变得廉价、广泛可用,并且不会过于集中于任何个人、公司或国家。社会具有韧性、创造力,并且适应能力强。如果我们能够驾驭人们的集体意志和智慧,那么尽管我们会犯很多错误,有些事情会变得非常糟糕,但我们能够快速学习和适应,并能够利用这项技术获得最大的好处和最小的坏处。在社会必须决定的宽泛范围内赋予用户很大的自由度,似乎非常重要。世界越早开始讨论这些宽泛的界限是什么,以及我们如何定义集体协同,就越好。我们(整个行业,不仅仅是 OpenAI)正在为世界构建一个大脑。它将极其个性化,人人皆可轻松使用;我们将受到好点子的限制。长期以来,初创企业的技术人员一直嘲笑「创意人」;那些有想法却想找团队来实现的人。现在在我看来,他们即将迎来辉煌的一天。

OpenAI 现在有很多业务,但首先,我们是一家超级智能研究公司。我们面前有很多工作要做,但大部分路途如今已被照亮,黑暗区域正在迅速消退。我们非常感激能够从事我们所做的事情。

廉价到无法计量的智能触手可及。这听起来可能很疯狂,但如果我们在 2020 年告诉你我们将会达到今天的水平,那听起来可能比我们现在的预测更疯狂。

希望我们能够通过超级智能平稳、指数级、平安地 scale

奥特曼博客美元
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片