
高质AI推理模型走向普及。
作者 | 智东西 ZeR0
智东西2月1日报道,今日凌晨,OpenAI发布全新推理模型o3-mini。
OpenAI称这是其最具成本效益的推理模型,复杂推理和对话能力显著提升,在科学、数学、编程等领域的性能表现超过前代o1模型,同时保持了o1-mini的低成本和低延迟,并可与联网搜索功能搭配使用。

o3-mini已在ChatGPT和API中可用,企业版访问权限将在一周内推出。
显然DeepSeek登顶美国App Store免费榜给OpenAI制造了压力。今天,ChatGPT首次向所有用户免费提供推理模型:用户可在ChatGPT中选择“Reason”按钮来试用o3-mini。

ChatGPT Pro用户可无限制访问,Plus和Team用户的速率限制从原来o1-mini的每天50条消息增加3倍到o3-mini的每天150条消息。

付费用户还可以选择更高智能的版本“o3-mini-high”。该版本需要更长的时间才能生成响应。

和o1模型一样,o3-mini模型的知识截止日期为2023年10月,上下文窗口为20万个token,最多可输出10万个token。
有低(low)、中(medium)、高(high)三个版本的o3-mini,供开发者针对其特定用例进行优化。

o3-mini目前不支持视觉功能,因此开发者仍需使用o1进行视觉推理任务。
即日起,o3-mini在Chat Completions API、Assistants API、Batch API中推出。
OpenAI称相较推出GPT-4时,每个token的价格已经降低了95%,同时保持了顶级的推理能力。不过o3-mini的API定价还是高于DeepSeek模型。

▲OpenAI模型与DeepSeek模型API定价对比(智东西制图)
安全方面,OpenAI发现o3-mini在具有挑战性的安全性和越狱方面明显超过GPT-4o。
01.
详解o3-mini:
科学数学编程能力进化,延迟明显降低
OpenAI发布了o3-mini的37页详细报告,涵盖模型的介绍、数据和训练、测试范围、安全挑战和评估、外部红队测试、准备框架评估、多语言性能以及结论等多个方面。

o3-mini针对科学、数学、编程推理进行了优化,同时响应速度更快。
该模型在GPQA Diamond(理化生)、AIME 2022-2024(数学)、Codeforces ELO(编程)基准测试中,o3-mini的分数分别为0.77、0.80、2036,比肩或超过o1推理模型。

在14种语言的MMLU测试集上,o3-mini的表现显著优于o1-mini,展示了其在多语言理解方面的进步。

外部专家测试人员的评估表明,与o1-mini相比,o3-mini的答案更准确、更清晰,推理能力更强。
在人类偏好评估中,测试人员在56%的时间里更喜欢o3-mini的回答,并观察到在困难的现实问题上重大错误减少了39%。在中推理能力下,o3-mini在一些最具挑战性的推理和智力评估(包括AIME和GPQA)上的表现与o1相当。

o3-mini的智能可媲美o1,提供了更快的性能、更高的效率。中推理能力下,该模型还在额外的数学和事实性评估中表现出色。在A/B测试中,o3-mini的响应速度比o1-mini快24%,平均响应时间为7.7秒,而o1-mini为10.16秒。


数学方面,在低推理能力下,o3-mini的表现与o1-mini相当,而在中推理能力下,o3-mini的表现与o1相当。同时,在高推理能力下,o3-mini的表现优于o1-mini和o1。


具有高推理能力的o3-mini在FrontierMath上的表现优于其前代。
在FrontierMath测试上,当被提示使用Python工具时,具有高推理能力的o3-mini在第一次尝试时解决了超过32%的问题,其中包括超过28%的具有挑战性的(T3)问题。

o3-mini随着推理能力的增加逐渐获得更高的Elo分数,均优于o1-mini。在中推理能力下,它的表现与o1相当。


o3-mini是OpenAI在SWE-bench验证中表现最好的模型。

关于SWE-bench验证结果的更多数据如下图所示。o3-mini (tools) 性能最好,为61%。使用Agentless而非内部工具的o3-mini上市候选产品得分为39%。o1是表现第二好的模型,得分为48%。

在LiveBench编程测试中,高推理能力的o3-mini得分全面超过o1-high。

02.
多项安全评估超过GPT-4o
OpenAI还详细介绍了o3-mini在多个安全评估中的表现,称o3-mini在具有挑战性的安全性和越狱评估方面明显超越了GPT-4o。
在不允许的内容评估中,与GPT-4o相比,o3-mini在标准拒绝评估和挑战性拒绝评估中表现相似,但在XSTest中略逊一筹。

在越狱评估中,o3-mini与o1-mini相比,在生产越狱、越狱增强示例、StrongReject和人类来源的越狱评估中表现相当。

在幻觉评估中,使用PersonQA数据集,o3-mini的准确率为21.7%,幻觉率为14.8%,与GPT-4o、o1-mini相比表现相当或更好。

在公平性和偏见评估中,o3-mini在BBQ评估中的表现与o1-mini相似,但在处理模糊问题时的准确性略有下降。

外部红队测试显示,o3-mini在与o1的比较中表现相当,两者都显著优于GPT-4o。

在Gray Swan Arena的越狱测试中,o3-mini的平均用户攻击成功率为3.6%,与o1-mini和GPT-4o相比略高。
准备框架评估涵盖了网络安全、CBRN(化学、生物、放射性、核)、说服力、模型自主性四个风险类别。o3-mini在网络安全方面被评为“低风险”,在CBRN、说服力、模型自主性方面被评为“中等风险”,在生物威胁创建方面的表现达到了“中等风险”阈值,但在核和放射性武器发展方面的能力有限。

按其评级,只有缓解后得分为“中等”或以下的模型才可以部署,得分“高等”或以下的模型才可以进一步开发。
03.
o3基准测试成本或超3000万美元,
OpenAI正谈判2900亿元新融资
自去年9月发布o1以来,OpenAI一直在迭代其推理模型,去年年底发布的o3模型是其最新一代AI推理模型。
高端版o3模型针对高计算应用,而o3-mini迎合了需要兼顾经济高效的用户需求。这反映了OpenAI试图平衡可访问性和高级付费产品的策略。
这两天也不知道是被DeepSeek逼急了,还是为了给o3-mini预热,OpenAI联合创始人萨姆·阿尔特(12.400, 0.14, 1.14%)曼在社交平台上非常活跃,又是夸DeepSeek R1令人印象深刻,又说OpenAI将提供更好的模型,又强调更多计算很重要。

昨天他还大张旗鼓地宣布第一个完整8机架GB200 NVL72服务器正在微软Azure为OpenAI运行。

印度政府本周五发布的《2024-2025经济调查》报告显示,OpenAI可能已经花费超过3000万美元来对其最新AI推理模型o3进行基准测试。
该报告写道,OpenAI o3模型处理能力的突破付出了非常高的代价。ARC-AGI基准测试被认为是最具挑战性的AI任务之一,OpenAI的低效配置模型导致了20万美元的成本。高效模型的成本更是高达低效模型的172倍,也就是大约3440万美元。

阿尔特曼前几天还晒出和微软董事长兼CEO萨提亚·纳德拉的合照,说微软和OpenAI合作的下一阶段将会比任何人想象的都要好得多。

不过微软作为OpenAI最大投资者的名号,可能要被日本软银集团夺走。
近期软银集团创始人兼CEO孙正义与阿尔特曼往来愈发密切,上周宣布联手成立AI巨型项目“星际之门(Stargate)”,未来四年投资5000亿美元(约合人民币3.6万亿元)建设AI基础设施,昨天又被外媒曝出将成为OpenAI新一轮巨额融资的领投方。
据外媒报道,OpenAI正在进行初步谈判,计划在一轮融资中筹集至多400亿美元(约合人民币2901亿元),估值将达到3000亿美元(约合人民币2.18万亿元)。日本软银集团将领投此轮融资,正在商谈投资150亿至250亿美元,剩余资金将来自其他投资者。
加上之前软银承诺向“星际之门”投资的逾150亿美元,最终软银可能会在与OpenAI的合作上投入超过400亿美元。这将成为软银迄今最大的投资之一。
04.
结语:狂卷性价比,
高质AI推理模型走向普及
此前马斯克等科技大佬已经公开质疑过如何承担建造“星际之门”的巨额成本。在DeepSeek高性能低成本开源模型的影响下,美国AI产业界和华尔街投资者对OpenAI等其他美国AI开发商的大手笔支出策略更是疑窦丛生。
OpenAI最新推出的o3-mini,也被视作抵御DeepSeek模型冲击的最新举措,令业界尤其关注。
在新闻稿中,OpenAI称o3-mini的发布标志着该公司向突破高性价比智能界限的使命又迈进了一步,让高质量的AI更加触手可及,OpenAI致力于走在前沿,构建能够平衡智能、效率和安全性的大规模模型。
责任编辑:韦子蓉








APP专享直播
热门推荐
奋进的春天丨“最年轻”的他们 答好美丽中国试卷 收起奋进的春天丨“最年轻”的他们 答好美丽中国试卷
- 2025年03月02日
- 23:20
- APP专享
- 扒圈小记
3,783
iPhone13跌至半价后销量暴增10倍
- 2025年03月03日
- 10:04
- APP专享
- 扒圈小记
2,935
终于露出笑容!泽连斯基:能挽救与特朗普关系,愿意签矿产协议,“愿重返白宫”!
- 2025年03月03日
- 06:23
- APP专享
- 北京时间
1,288

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
东方红陈晨2025-03-03 23:30:49
【深圳:到2027年具身智能机器人(sz300024)产业规模达到1000亿元以上 产业集群相关企业超过1200家】财联社3月3日电,《深圳市具身智能机器人(sz300024)技术创新与产业发展行动计划(2025-2027年)》印发。其中提到,到2027年,在机器人(sz300024)关键核心零部件、AI芯片、人工智能与机器人(sz300024)融合技术、多模态感知技术、高精度运动控制技术、灵巧操作技术等方面取得突破。新增培育估值过百亿企业10家以上、营收超十亿企业20家以上,实现十亿级应用场景落地50个以上,关联产业规模达到1000亿元以上,具身智能机器人(sz300024)产业集群相关企业超过1200家。打造公共服务平台矩阵,吸引更多上下游企业、科研机构、创新团队等加入,形成更完善的产业生态,具身智能机器人(sz300024)产业综合实力达到国际领先水平。 -
东方红陈晨2025-03-03 23:30:00
【今日投资舆情热点】1)固态电池:机构称,全固态电池的装车节奏预期逐步收敛,即2027年小批量/示范性上车,2030年大规模量产。2)AI应用:《深圳市加快推进人工智能终端产业发展行动计划(2025—2026年)》印发,力争2026年人工智能终端产业规模达1万亿元。3)核聚变:中国核电(sh601985)、浙能电力(sh600023)相继公告,拟以增资方式参股中国聚变能源有限公司。4)云计算:DeepSeek称,理论成本利润率可达545%;大集群规模效应+高并发利用率带来降本,AI上云或将是控本首选。5)深圳机器人(sz300024):《深圳市具身智能机器人(sz300024)技术创新与产业发展行动计划(2025-2027年)》印发,新增培育估值过百亿企业10家以上、营收超十亿企业20家以上。 -
东方红陈晨2025-03-03 23:28:26
【德尔股份(sz300473):目前固态电池产品尚在开发试制阶段 尚未取得订单、尚未形成收入】财联社3月3日电,德尔股份(sz300473)(300473.SZ)公告称,基于公司股票交易价格异常波动的情况,公司注意到近期“固态电池概念”受市场关注较大。经公司核实说明如下:公司自2018年成立日本子公司,开展固态电池产品的研发工作,公司在上海的样品试制线已建成使用,但目前固态电池产品尚在开发试制阶段,尚未取得订单、尚未形成收入。上述事项对公司2025年度业绩不会产生较大影响。敬请广大投资者理性决策,审慎投资,注意投资风险。 -
东方红陈晨2025-03-03 23:27:30
【丰茂股份(sz301459):已与宇树科技就产品在机器人(sz300024)上的应用 做了初步技术探讨和交流】财联社3月3日电,丰茂股份(sz301459)(301459.SZ)近日在路演活动中表示,公司前期已与宇树科技就产品在机器人(sz300024)上的应用,做了初步的技术探讨和交流。借助多年形成的技术积淀和产品开发经验,公司目前正积极开发和推广机器人(sz300024)领域的相关产品。 -
东方红陈晨2025-03-03 23:25:25
【东方锆业(sz002167):公司提供的样品已获得部分固态电池材料厂家研发试用初步认可 后续将进行大样实验】财联社3月3日电,东方锆业(sz002167)(002167.SZ)发布股票交易异常波动公告称,公司股票交易价格连续两个交易日收盘价格涨幅偏离值累计超过20%,属于股票交易异常波动情况。经核实,公司前期披露的信息不存在需要更正、补充之处,目前生产经营正常,内外经营环境未发生重大变化。公司提供的样品已获得部分固态电池材料厂家研发试用初步认可,后续将进行大样实验。 -
东方红陈晨2025-03-03 23:24:39
【3连板上海洗霸(sh603200):公司固态电池相关业务尚未获得批量订单】财联社3月3日电,上海洗霸(sh603200)(603200.SH)发布股票交易风险提示公告称,公司关注到近期固态电池概念受市场关注度较高,公司相关业务尚未获得批量订单,暂未形成长期稳定收入,对公司整体业绩暂不构成影响。同时,基于产品迭代及市场发展的不确定性,公司目前相关投入相对较小,相关送样样品的检测、匹配结果和应用前景也具有较大不确定性。 -
东方红陈晨2025-03-03 23:22:21
【当升科技(sz300073):与SK On签订1.7万吨锂电正极材料框架性供货协议】财联社3月3日电,当升科技(sz300073)(300073.SZ)公告称,公司与SK On签订锂电正极材料框架性供货协议,预计在2025年至2027年向当升科技(sz300073)采购17,000吨高镍及中镍等多型号锂电正极材料。如本协议得到充分履行,预计将对公司2025年至2027年度经营业绩产生积极影响。协议履行过程中,如遇行业政策调整、市场环境变化等不可预计或不可抗力因素影响,可能会导致协议无法如期或不能全部履行的风险。 -
东方红陈晨2025-03-03 23:21:18
【金银河(sz300619):近期与Microvast微宏集团在固态电池领域展开深度合作 短期内对公司业绩无重大影响】财联社3月3日电,金银河(sz300619)(300619.SZ)公告称,公司股票交易连续三个交易日收盘价格涨幅偏离值累计超过30%,属于股票交易异常波动。公司近期与Microvast微宏集团签订了战略合作协议,在固态电池领域展开深度合作,但具体还需进一步推动和落地,短期内对公司业绩无重大影响。公司未发现近期公共传媒报道了可能或已经对公司股票交易价格产生较大影响的未公开重大信息。公司、控股股东及实际控制人不存在关于公司的应披露而未披露的重大事项。 -
东方红陈晨2025-03-03 23:19:11
【深圳:到2026年全市人工智能产业规模年均增长超20% 推出10个以上产业集聚效应明显的人工智能和具身智能机器人(sz300024)创新孵化器】财联社3月3日电,深圳市工业和信息化局印发《深圳市加快打造人工智能先锋城市行动计划(2025—2026年)》,到2026年,全市人工智能企业数量超3000家,独角兽企业超10家,产业规模年均增长超20%,推出10个以上产业集聚效应明显的人工智能和具身智能机器人(sz300024)创新孵化器,形成“场景应用最开放、算力供给最普惠、产业生态最健全、创新创业最便捷”的产业发展环境,建成具有国际影响力的人工智能先锋城市,加快打造具有全球重要影响力的产业科技创新中心。 -
东方红陈晨2025-03-03 23:18:07
【深圳:建设多个10E级智能算力集群 到2026年实时可用智能算力超过80E FLOPS】财联社3月3日电,深圳市工业和信息化局印发《深圳市加快打造人工智能先锋城市行动计划(2025—2026年)》,大幅提升智能算力规模。聚焦企业智能算力需求,建设一批智能算力项目,打造超智协同、异构融合、训推一体、普惠泛在的可持续训力供给体系。加快建成国家级重大战略项目,推动鹏城云脑Ⅲ、国家超级计算深圳中心二期尽快点亮,打造国家智能算力的核心关键节点。建设多个10E级智能算力集群,推动现有智能算力中心倍增扩容,建设一批国产智能算力中心,打造南山、宝安、龙岗、龙华、前海、河套以及光明科学城等算力高地。实施“算力飞地”战略,构建1ms时延的城市算力网、3ms时延的韶关算力网以及10ms时延的贵安算力网,构建多点互联、高速无损的算力网络。到2026年,实时可用智能算力超过80E FLOPS。