当地时间1月31日,OpenAI正式推出了全新推理模型o3-mini,并首次向免费用户开放推理模型。这是OpenAI推理系列中最新、成本效益最高的模型,现在已经在ChatGPT和API中上线。

轻量级推理大模型o3-mini最早于2024年12月的直播活动中亮相,一同亮相的还有“满血版”的o3模型。OpenAI宣称,o3具备更先进、近似人类的推理能力,在解决编程、数学、科学等理工科问题方面均超越现役的o1模型。OpenAI曾表示,o3-mini会在2025年1月底先上架,o3则“会在不久之后推出”。
OpenAI介绍称,o3-mini支持开发者调整“AI推理努力程度”的选项——分为低、中、高三个级别。这种灵活性使得o3-mini可以在面对难题时“更努力思考”,而需要效率时优先考虑回应速度。
在当地时间1月31日的新闻稿中,OpenAI披露,在2024年美国数学邀请赛(AIME 2024)的测试中,低推理努力的o3-mini准确率(60%)与o1-mini差不多,但速率更快;而在中等努力下,o3-mini准确率能够提升到79.6%,与o1模型相当。在最高努力水平时,o3-mini的准确率则能进一步提升至87.3%。

在博士级科学问题(GPQA Diamond)方面,三种努力程度模型的准确率分别为70.6%、76.8%和79.7%。

FrontierMath前沿数学与Codeforces等编程竞赛方面,o3-mini也显示出明显优势,甚至在某些评测中远超前代模型。


通用知识方面,在各种知识评测中,o3-mini的表现也超过了o1-mini,能够为用户提供更准确的答案。

在智能水平与o1相当的前提下,o3-mini提供了更快的性能和更高的效率。除了上述提及的STEM评估之外,采用中等推理努力的情况下,o3-mini在数学和事实性评估中也展现出更出色的表现。在A/B测试中,o3-mini的响应速度比o1-mini快24%,其平均响应时间为7.7 秒,而o1-mini为10.16 秒。延迟方面,o3-mini的首个token平均比o1-mini快2500毫秒。

横向对比,DeepSeek-R1模型在AIME 2024测试中的准确率为79.8%,而在GPQA Diamond测试中的准确率为71.5%。
有专家在社交媒体表示:受DeepSeek影响,OpenAl现在也显示推理模型的思维过程了。

此外,对于付费用户,o3-mini将在模型选择器中替代o1-mini。作为升级的一部分,每月花费20美元左右的ChatGPT Plus和Team用户,速率限制也从o1-mini的每天50条,提升到o3-mini的150条。每月支付200美元的ChatGPT Pro用户,能无限制地访问o3-mini。
每日经济新闻综合OpenAI官网、公开资料


APP专享直播
热门推荐
“英雄团长”祁发宝,再获表彰 收起“英雄团长”祁发宝,再获表彰
- 2025年03月03日
- 01:08
- APP专享
- 扒圈小记
23,858
“菜刀哥”李坤朋因病去世,享年39岁
- 2025年03月03日
- 02:40
- APP专享
- 扒圈小记
21,707
年仅39岁!救人英雄“菜刀哥”李坤朋去世 家属讣告:因病抢救无效辞世,殡期定于3月5日
- 2025年03月03日
- 03:26
- APP专享
- 北京时间
4,004

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 13:31:39
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 10:39:42
【3连板上海洗霸(sh603200):公司固态电池相关业务尚未获得批量订单】上海洗霸(sh603200)(***)发布股票交易风险提示公告称,公司关注到近期固态电池概念受市场关注度较高,公司相关业务尚未获得批量订单,暂未形成长期稳定收入,对公司整体业绩暂不构成影响。同时,基于产品迭代及市场发展的不确定性,公司目前相关投入相对较小,相关送样样品的检测、匹配结果和应用前景也具有较大不确定性。 -
趋势领涨今天 10:38:09
【3连板上海洗霸(sh603200):公司固态电池相关业务尚未获得批量订单】上海洗霸(sh603200)(603200.SH)发布股票交易风险提示公告称,公司关注到近期固态电池概念受市场关注度较高,公司相关业务尚未获得批量订单,暂未形成长期稳定收入,对公司整体业绩暂不构成影响。同时,基于产品迭代及市场发展的不确定性,公司目前相关投入相对较小,相关送样样品的检测、匹配结果和应用前景也具有较大不确定性。 -
数字江恩今天 10:11:52
目前大盘依托3300整数位,在3356之下的抵抗,其实就是市场高低切换。低位的新能源板块表现,而科技里面则是高低切换。总的来说,高位的目前就稍微惰性些。 -
数字江恩今天 10:11:48
明日关注3300即可,只要不跌破3300,大盘还将再次反弹,尝试3356压力。但是只要没有特别显著的放量,那么是站不上3356压力位置的。本周在3356压力下震荡后,还会再有一次回踩。 -
数字江恩今天 10:11:43
看大盘的5分钟图,图上3314之后的震荡非常对称。3314-3384的三段式向上,3384-3388高位震荡后的三段式回踩。从目前来看,大盘并未持续下跌,而只是区间震荡,这个结论依旧成立。【更多独家重磅股市观点请点击】 -
数字江恩今天 10:11:32
板块来说,今天新能源板块表现明显,特别是固态电池。除此之外,数据中心、国产算力等板块个股也非常活跃。科技只是分化严重,高低切换明显,并不是熄火。 -
数字江恩今天 10:11:26
A股两市今日成交6440 + 9807 = 16247 亿人民币,缩量较为明显。大盘日内略微冲高受阻于上周五大阴线实体50%位置,然后回落再次新低。个股方面,超过60%的个股收红上涨。 -
数字江恩今天 10:11:21
继续震荡 -
趋势领涨今天 10:03:30
今天大盘出现冲高回落,两市超过3000只个股上涨,但涨幅都不大,上周五跑了一头牛,今天只回来一只鸡,这个市场挺无语的,下跌时只跌我的,修复只修复你的;吃.肉不带我,买单却来喊上我。特别是那个内资,今天大幅流出近350亿元,你们说他们要去投胎吗?