每经编辑 杜宇
当地时间1月31日,OpenAI正式推出了全新推理模型o3-mini,并首次向免费用户开放推理模型。这是OpenAI推理系列中最新、成本效益最高的模型,现在已经在ChatGPT和API中上线。

轻量级推理大模型o3-mini最早于2024年12月的直播活动中亮相,一同亮相的还有“满血版”的o3模型。OpenAI宣称,o3具备更先进、近似人类的推理能力,在解决编程、数学、科学等理工科问题方面均超越现役的o1模型。OpenAI曾表示,o3-mini会在2025年1月底先上架,o3则“会在不久之后推出”。
OpenAI介绍称,o3-mini支持开发者调整“AI推理努力程度”的选项——分为低、中、高三个级别。这种灵活性使得o3-mini可以在面对难题时“更努力思考”,而需要效率时优先考虑回应速度。
在当地时间1月31日的新闻稿中,OpenAI披露,在2024年美国数学邀请赛(AIME 2024)的测试中,低推理努力的o3-mini准确率(60%)与o1-mini差不多,但速率更快;而在中等努力下,o3-mini准确率能够提升到79.6%,与o1模型相当。在最高努力水平时,o3-mini的准确率则能进一步提升至87.3%。

在博士级科学问题(GPQA Diamond)方面,三种努力程度模型的准确率分别为70.6%、76.8%和79.7%。

FrontierMath前沿数学与Codeforces等编程竞赛方面,o3-mini也显示出明显优势,甚至在某些评测中远超前代模型。


通用知识方面,在各种知识评测中,o3-mini的表现也超过了o1-mini,能够为用户提供更准确的答案。

在智能水平与o1相当的前提下,o3-mini提供了更快的性能和更高的效率。除了上述提及的STEM评估之外,采用中等推理努力的情况下,o3-mini在数学和事实性评估中也展现出更出色的表现。在A/B测试中,o3-mini的响应速度比o1-mini快24%,其平均响应时间为7.7 秒,而o1-mini为10.16 秒。延迟方面,o3-mini的首个token平均比o1-mini快2500毫秒。

横向对比,DeepSeek-R1模型在AIME 2024测试中的准确率为79.8%,而在GPQA Diamond测试中的准确率为71.5%。
有专家在社交媒体表示:受DeepSeek影响,OpenAl现在也显示推理模型的思维过程了。

此外,对于付费用户,o3-mini将在模型选择器中替代o1-mini。作为升级的一部分,每月花费20美元左右的ChatGPT Plus和Team用户,速率限制也从o1-mini的每天50条,提升到o3-mini的150条。每月支付200美元的ChatGPT Pro用户,能无限制地访问o3-mini。
每日经济新闻综合OpenAI官网、公开资料
责任编辑:刘明亮




![[允悲] [允悲]](https://n.sinaimg.cn/commnet/2018new_kuxiao_org.png)



![[允悲] [允悲]](https://n.sinaimg.cn/commnet/2018new_kuxiao_org.png)

APP专享直播
热门推荐
奋进的春天丨“最年轻”的他们 答好美丽中国试卷 收起奋进的春天丨“最年轻”的他们 答好美丽中国试卷
- 2025年03月02日
- 23:20
- APP专享
- 扒圈小记
4,856
德媒发现:欧盟主席冯德莱恩对中国口气变了
- 2025年03月03日
- 04:27
- APP专享
- 扒圈小记
1,546
刚刚!泽连斯基,重大宣布!
- 2025年03月03日
- 01:25
- APP专享
- 北京时间
865

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 11:03:04
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 10:16:30
【欧盟执委会主席冯德莱恩:欧洲准备大幅提高国防支出】欧盟执委会主席冯德莱恩表示,欧洲准备大幅提高国防支出;提议新的工具,将向成员国提供1500亿欧元的贷款用于国防投资,新工具可用于支持乌克兰。欧盟将提议激活稳定与增长公约中的国家免责条款。并表示,重建欧洲防御能力可能会动员近8000亿欧元,以实现安全和具有韧性的欧洲。 -
数字江恩今天 09:50:13
只是明日来说,关注3310位置,这个位置只要跌破,那么再次回踩就开始了。 -
数字江恩今天 09:50:02
5分钟图来看,大盘再3300区间的反抗如昨日预期,但今日的反弹力度明显弱于昨日。3300区间的反抗,无论如何都难以突破图上的3140-3220红色轮谷线,只能在之下震荡。而本周的回踩并未结束,震荡之后,还有一次回踩新低。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:49:48
板块方面,昨日强势的新能源今日回踩最大,特别是电池类;而昨日特别弱的科技和机器人(sz300024)、军工今日则大多反弹。本周一二两日,再缩量的条件下,市场还是走得题材轮动,而没有连续炒作热点。 -
数字江恩今天 09:49:42
A股两市今日成交5687 + 8668 = 14355 亿人民币,持续缩量较为明显。大盘早盘略微探底后,缓慢反弹,只是反弹力度低,仅仅收涨7个点。个股方面超过75%的红盘收盘。 -
数字江恩今天 09:49:35
回踩仍未结束 -
北京红竹今天 08:19:38
3、缩量调整属于良性成交额跌破1.5万亿,全天成交额1.44万亿。还记得以前讲解过的知识点吗?大量资金铺在前,横盘整理必要看,只要资金不流出,后市拉升可期盼。可以看看现在的DS和人形机器人(sz300024),里面的滞涨品种,基本上大多数都属于这样的结构。日线级别上涨段确立,一笔反弹之后现在都是缩量回踩的。这一波市场调整,就是又给一次进场机会,现在需要做的就是等待,和提前选好你要玩的个股。一旦三十分钟级别二买确立,干就完了。 -
北京红竹今天 08:19:32
2、人形机器人(sz300024)大涨人形机器人(sz300024)依然是主线没问题,大级别上涨也没结束呢,只是从缠论上来说,它短期的调整没结束呢,今天的反弹也是修复。昨晚公开直播就有聊过,今天恒生科技、人形机器人(sz300024)都会有修复反弹,但就是调整结构的过程。之前判断要调整,就是因为五分钟级别2个中枢上涨,并且出现了三买,现在三买已破,对于以缠论为根的交易者,就要等待盘整之后再考虑进场,也就是再次回落一波,到最后一个中枢之内。 -
北京红竹今天 08:19:26
1、休息也是一种交易防守线跌破,对于缠论为根的交易者,就要等待日线一笔等回落,中间就是过程。早评的时候就在文字直播间说过了,今天会有修复,而这个修复也就是个过程。既然是过程自然就是休息了。交易并非每天都要买卖,有自己确定性位置,也就是自己能看懂的位置干,看不懂,干啥?休息是为了更好的进攻,明天周三,大概率也是休息。周四五之后在说了,因为结构要到周四五才能大概率形成。