机器之心报道
机器之心编辑部
奥特曼能不急吗?
被 DeepSeek 狂轰乱炸了一周后,终于在今天发布了新的模型 o3-mini。

此次发布,o3-mini 包含 low、medium 和 high 三个版本。
OpenAI 表示,今天发布的 o3-mini 是其推理模型系列中最新、最具成本效益的模型,已上线 ChatGPT 和 API 。
我们打开 ChatGPT,o3-mini 和 o3-mini-high 两个新模型已然上线。

不过 o3-mini 目前还不支持视觉功能,因此开发者需要继续使用 OpenAI o1 进行视觉推理任务。
在使用权限上,ChatGPT Plus、Team 和 Pro 用户从今天起就可以访问 OpenAI o3-mini,企业版访问权限将在一周内开放。
作为此次升级的一部分,OpenAI 将 Plus 和 Team 用户的速率限制从 o1-mini 的每天 50 条消息提高到 o3-mini 的每天 150 条消息。此外,o3-mini 现在可以使用搜索功能,提供带有相关网络来源链接的最新答案。这是其在推理模型中整合搜索功能的早期原型。
从今天开始,免费用户也可以通过在消息编辑器中选择「推理」或重新生成响应来试用 OpenAI o3-mini。这是 OpenAI 首次向 ChatGPT 的免费用户提供推理模型。

虽然 OpenAI o1 仍然是更广泛使用的通用知识推理模型,但 OpenAI o3-mini 为需要精确性和速度的技术领域提供了专门的替代选择。在 ChatGPT 中,o3-mini 使用中等推理级别来提供速度和准确性之间的平衡。所有付费用户还可以在模型选择器中选择 o3-mini-high,从而获得需要更长时间生成响应但智能水平更高的版本。Pro 用户将可以无限制地访问 o3-mini 和 o3-mini-high。
对于此次发布,网友反馈如何?
知名播客主理人 Lex Fridman 表示,OpenAI o3-mini 虽然是一个很好的模型,但 DeepSeek r1 的性能相似,而且更便宜,并揭示推理过程。

他甚至给出了「DeepSeek moment」这样一个词形容 DeepSeek 带来的深远影响。
接下来,就让我们看下 o3-mini 的性能指标:
快速、强大且针对 STEM 推理优化
与其前身 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。o3-mini-medium 在数学、编程和科学领域的表现与 o1 相当,同时响应速度更快。专家测试人员的评估显示,o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。o3-mini-medium 在一些最具挑战性的推理和智能评估(包括 AIME 和 GPQA)上与 o1 的表现相当。
竞赛数学(AIME 2024):

竞赛数学:o3-mini-low 与 o1-mini 的表现相当。o3-mini-medium 达到与 o1 相当的表现。o3-mini-high 超过了 o1-mini 和 o1,上图中灰色阴影区域为 64 个样本的多数投票(共识)。
博士级科学问题(GPQA Diamond):

博士极科学问题:o3-mini-low 的表现优于 o1-mini。o3-mini-high 的表现与 o1 相当,在博士级生物学、化学和物理问题上都显示出显著进步。
研究级数学(FrontierMath):

研究级数学:o3-mini-high 在 FrontierMath 上的表现优于其前代产品。使用 Python 工具时,o3-mini-high 能够在首次尝试时解决超过 32% 的问题,包括超过 28% 的具有挑战性的(T3)问题。
竞赛编程(Codeforces):

在 Codeforces 编程中, o3-mini 随着推理努力级别的提高获得了越来越高的 Elo 分数,均优于 o1-mini。o3-mini-medium 达到了与 o1 相当的表现。
软件工程(SWE-bench Verified):

软件工程:o3-mini 是 OpenAI 发布的在 SWEbench-verified 上表现最好的模型。o3-mini-high 使用开源 Agentless 框架可达到 39% 的准确率,使用内部工具可达到 61% 的准确率。
LiveBench 编码:

LiveBench 编码:即便是 o3-mini-medium 也超过了 o1-high,突显了其在编码任务中的效率。o3-mini-high 进一步扩大了领先优势,在关键指标上取得了显著更强的表现。
普通知识问题:

普通知识问题:o3-mini 在各个一般性知识领域的评估中都优于 o1-mini。
人类偏好评估:

人类偏好评估:外部专家测试人员的评估显示, o3-mini 产生的答案比 o1-mini 更准确、更清晰,推理能力更强,特别是在 STEM 领域。测试人员在 56% 的情况下更偏好 o3-mini 的响应,并观察到 o3-mini 在困难的现实问题上重大错误减少了 39%。
模型速度和性能
o3-mini 在保持与 OpenAI o1 相当的智能水平的同时,提供了更快的性能和更高的效率。除了上述 STEM 评估外,o3-mini-medium 的其他数学和事实性评估中也展现出优越的结果。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

延迟:o3-mini 的首个 token 生成时间平均比 o1-mini 快 2500 毫秒。
安全
OpenAI 教导 o3-mini 安全响应的主要技术之一是审慎对齐(deliberative alignment),这种对齐方式训练模型在回答用户提示之前,先对人工编写的安全规范进行充分的思考和推理。与 OpenAI o1 类似,研究人员发现 o3-mini 在具有挑战性的安全性和越狱评估上显著超越了 GPT-4o。在部署之前,OpenAI 使用了与 o1 相同的准备方法、外部红队测试和安全性评估来仔细评估 o3-mini 的安全风险。
违规内容评估结果

越狱评估结果

未来展望
OpenAI o3-mini 的发布标志着 OpenAI 在推进高性价比智能方面又迈出了一步。通过优化 STEM 领域的推理能力,同时保持低成本,OpenAI 正在使高质量 AI 变得更加容易获取。该模型延续了其降低智能成本的记录 —— 自 GPT-4 推出以来,每个 token 的定价降低了 95%—— 同时保持顶级推理能力。随着 AI 应用的扩展,OpenAI 仍然致力于在前沿领域引领,构建即使在大规模部署和使用的情况下,也能保持智能、效率与安全平衡的模型。


APP专享直播
热门推荐
意大利总理提议北约集体防御条款适用于乌克兰 收起意大利总理提议北约集体防御条款适用于乌克兰
- 2025年03月08日
- 01:25
- APP专享
- 扒圈小记
4,653
特朗普:与乌克兰打交道更困难,他们已经“无牌可打”
- 2025年03月07日
- 23:37
- APP专享
- 扒圈小记
2,553
媒体:美国确认切断乌克兰对卫星图像的访问权限
- 2025年03月08日
- 04:35
- APP专享
- 北京时间
1,627

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 05:29:59
私募股权公司Sycamore Partners与老牌连锁药店沃博联达成最终协议,以近100亿美元价格将后者私有化,包括债务在内的交易总价值为237亿美元。这笔交易预计将于今年四季度完成。沃博联的市值自2015年以来已下跌90%,截至当地时间6日为93亿美元。 -
趋势领涨今天 00:27:08
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 00:26:42
人工智能是后期主要发展方向,这点没有任何疑问,人工智能板块的炒作也是后期主要热点,这点也没有疑问,但近期涨幅确实有点大了,树不能长到天上去,虽然后期还有行情,但短期也有调整的风险。该消息主要涉及的是AI+教育,前期也已经经过了多次炒作,所以,大家还是要注意追涨的风险。另外,骏利亨德森投资环球科技领先团队表示,近期减持中资科技股,将资金调回美股。这个信号也要引起大家的注意。三、美国2月非农就业人数略低于市场预期 降息预期降温美国2月季调后非农就业人口15.1万人,预期16万人,前值由14.3万人修正为12.5万人。数据公布后,美国短期利率期货下跌;交易员不再押注美联储5月降息。美国利率期货交易员现在押注美联储要等到6月才能重新开始降息。以前市场预期美联储将在12月份才有降息,随后提到5月份降息,现在美国2月非农就业人数低于预期,市场不再预期5月份会有降息,总之,美联储要降息时,公布的数据都是符合降息的;否则,美国公布的数据都是不利于降息。一句话就是美联储通过不断地恐吓,将资金留在国内,给美国服务,但美元指数的大幅回调,说明资金正在逃离美国,东升西落,美国正在进入衰退期,大摩将2025年美国GDP增长预测下调至1.5%,之前的预测为1.9%,这个应该也是信号。资金都是逐利的,只要有一小部分资金能够进入A股市场,A股今年出现牛市是可能的,但前提是内资不能天天砸盘!下周重要事件将要落幕,大盘应该会迎来震荡,但中期走势还是向好的,所以,大盘回调将是机会。今天是三八节,没有太阳、花朵不会开,没有爱、幸福不会来,没有妇女,也就没有爱,所以,妇女是爱的根源,也是爱的源泉,祝天下妇女三八节快乐! -
趋势领涨今天 00:26:37
昨天港股再创新高,港股这波走势确实很牛,港股恒生指数大涨超过32%,恒生科技指数大涨近50%,主要原因就是港股里面有国内科技股巨头腾讯、阿里等,而A股连上攻3400点的勇气都没有,主要原因就是量化资金收割,垃圾股太多,港股炒业绩,A股炒垃圾,这就是宿命!所以,我们始终认为,本轮炒作要盯紧港股,港股一旦见顶,A股必定见顶,只要港股能够继续上行,最终资金会流向A股,因为以前港股便宜,A股跟港股的逆差较大,但经过本轮上涨以后,A股跟港股的逆差已经大幅缩小,随着后期进一步缩小,A股就会变成低估了,所以,对今年的行情不悲观,但短期不会一帆风顺。一、华为正式组建医疗卫生军团据科创板日报,华为正式组建医疗卫生军团。据悉,医疗卫生军团将重点构建AI辅助诊断解决方案体系,推动医疗大模型在临床场景的应用。华为作为国内领军企业,不管走到哪个行业,都会引发大家的关注,华为+都将是行业龙头,比如华为算力,华为汽车等,现在华为组建医疗卫生军团,这就是华为+医疗,再叠加AI+医疗,后期医药板块会迎来机会,当然重点是跟AI对应,比如医疗、创新药方向等。二、北京:从2025年秋季学期开始 全市中小学校开展人工智能通识教育北京市推进中小学人工智能教育工作方案发布,从2025年秋季学期开始,全市中小学校开展人工智能通识教育,每学年不少于8课时,实现中小学生全面普及。学校可将人工智能课程独立设置,也可与信息科技等课程融合开展。 -
趋势领涨今天 00:26:34
大家早上好!趋势为王,做股海的领航者,新的一天,新的战斗,欢迎你来到本直播室!新进的朋友请注意点赞,收藏本直播室,以方便你下次观看,谢谢大家的支持!【更多独家重磅股市观点请点击】 -
趋势领涨2025-03-07 23:56:04
晚间重大消息:1、美国2月非农就业人数增加15.1万人,不及市场预期;美国2月失业率为4.1%,预估为4%,前值为4%。2、高盛将美国2025年GDP增长预期从此前的2.2%下调至1.7%,摩根士丹利则从此前的1.9%下调至1.5%。3、美联储主席鲍威尔表示,美联储不需要急于调整利率;特朗普政府政策影响的不确定性仍然很高;不会对一两项超出预期的经济数据做出过度反应。4、美股三大指数集体收涨,道指涨0.52%,本周累计下跌2.37%;纳指涨0.7%,本周累计下跌3.45%;标普500指数涨0.55%,本周累计下跌3.1%。热门中概股多数收涨,纳斯达克中国金龙指数涨0.47%,本周累涨4.93%。15、WTI原油期货结算价涨1.02%,报67.04美元/桶,本周累计下跌3.9%;布伦特原油期货结算价涨1.19%,报70.36美元/桶,本周累计下跌3.36%。 -
数字江恩2025-03-07 09:44:18
简单来说,3384后已经震荡了2周时间了,再震荡主要也就是下周一二而已。所以下周前半周关注3336+-10区间支撑,只要不跌破,大盘还会继续向上运行。 -
数字江恩2025-03-07 09:44:12
30分钟图来看,15分钟级别的abc只是将大盘拉回了前三角形的轮谷线位置,而宽幅震荡则是在红色轮谷线下的横盘震荡箱体。下周5分钟图的3336+-10只要不跌破,那么横盘震荡完毕,大盘必将站上红色轮谷线。至于站上红色轮谷线后的首轮高度,下周末再说不迟。【更多独家重磅股市观点请点击】 -
数字江恩2025-03-07 09:44:00
这是3384之后的5分钟震荡结构,简单来说,下周出还可以有震荡,但是不应该明显超过图上第一轮的回踩,即第一轮最低点3337不应该跌破超过10个点了,3336+-10支撑,也就是不有效跌破5周线,这个震荡结构都将要完美而开始新的1上涨。【更多独家重磅股市观点请点击】 -
数字江恩2025-03-07 09:43:47
首先看15分钟图,对前3494的下跌,核心图上蓝色轮峰线不应该再次跌回,本周四拉起来后,以纪念馆不再是问题。预期3140后运行abc+宽幅震荡+12345的结构,目前宽幅震荡并未超出限制,便5分钟图看震荡细部结构。【更多独家重磅股市观点请点击】