金磊 一水 发自 凹非寺
量子位 | 公众号 QbitAI
DeepSeek真算是给大模型圈提了个速——
就在刚刚,OpenAI深夜紧急发布了最新推理模型,o3-mini系列。
一共包含三个版本:low、medium和high。
其中o3-mini和o3-mini-high已经上线:

根据官方口径,o3系列模型,目标是推动低成本推理的边界。
ChatGPT Plus、团队和Pro用户从今天起可以访问OpenAI o3-mini,企业级访问将在一周后开放。
免费用户也可以通过选择“Search+Reason”来使用o3-mini来体验搜索。

或许是被DeepSeek逼急了,这是OpenAI首次向用户免费推出的推理模型。
甚至在随后的Reddit“有问必答”活动中,CEO奥特曼也罕见公开反思:
在开源权重AI模型这个问题上,(个人认为)我们站在了历史错误的一边。
与此同时,短短数小时内,网友们已经开始疯狂实测ing……
针对STEM推理优化,但价格相较DeepSeek-R1依旧贵出天际
还是先来看看技术报告都写了啥。

去年年底,OpenAI上线了o3-mini预览版,再次刷新小模型能力边界。
(在成本和低延迟上与o1-mini相当)
当时CEO奥特曼预告称,正式版将在今年1月发布。而卡在ddl的最后时刻,正式版o3-mini终于上桌。
整体而言,和前一代o1-mini类似,它也针对STEM(Science、Technology、Engineering、Mathematics)进行了优化,延续了mini系列小而美的风格。
仅o3-mini(medium),不但在数学编码上的表现与o1系列相当,而且响应更快。
人类专家测评显示,大多数情况下o3-mini比o1-mini产生更准确、更清晰的答案,获得了56%的偏好度,同时在处理复杂现实问题时的重大错误率更是降低了39%。
数学能力上,低推理强度下的o3-mini(low)达到了与o1-mini相当的水平;中等推理强度下能力媲美满血版o1;而一旦推理强度拉满(high),其表现直接超越o1系列一众模型。

在由60多位顶尖数学家准备的FrontierMath难题测试中,高推理强度下的o3-mini相较o1系列也有了大幅提升。
官方甚至特意注明,如果搭配Python工具使用,o3-mini(high)在第一次尝试时就解决了超过32%的问题,其中包括28%以上的T3级问题。

科学能力方面,在PhD水平的物化生问题上,低推理强度下的o3-mini就已经和o1-mini拉开了层级。

当然,在编码这项重要能力上,o3-mini更是在各层级上领先o1系列。

根据它们在LiveBench的表现可以看出,随着推理强度升级,o3-mini的优势还在不断扩大。

而且需要提醒,o3-mini在取得上述领先的同时响应更快,其平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。

最后在安全评估方面,o3-mini在多项安全评估中明显超过了GPT-4o。

价格方面,相比于输入/输出分别为0.14/0.55美元的DeepSeek-R1,o3-mini依旧贵出天际。

根据网友辣评,DeepSeek-R1目前还是性价比之王:更快、更好、更便宜。

BTW,OpenAI此次照例公布了o3-mini背后团队。可以看出,这一次是由奥特曼本人亲自带队,研究项目主管分别为Carpus Chang和Kristen Ying(名单中也有很多我们熟悉的老朋友如任鸿宇、赵盛佳等)。

网友疯狂实测中
正如我们刚才所提到的,目前网友们已经开始疯狂实测中。
不过从评价上来看,大伙儿对o3-mini的表现褒贬不一。
例如在用Python实现“球在四维体内部弹跳”的任务上,有人认为o3-mini是最好的LLM:

效果是这样的:

然后有网友尝试用DeepSeek来做同样的任务,从效果上来看,认为o3-mini稍微胜出一些:

更直接的对比,让一个球在旋转的六边形内弹跳,球应受到重力和摩擦力的影响,o3-mini和DeepSeek R1的效果差距就比较明显了:

包括更复杂的一些的任务,在球体内创建100个弹跳的黄色球,o3-mini现在也是可以做到:
再如让o3-mini设计两个贪吃蛇互相竞争的游戏:
除了DeepSeek之外,网友也用o1和o3-mini的效果做了对比,例如生成一座庞大、惊人的史诗级漂浮城市。

还有一位网友提出了令几乎所有大模型都会出错的迷惑性题目,但让他较为震惊的是,o3-mini竟然答对了:

不过知名播客博主Lex Fridman对o3-mini的评价却是:
OpenAI o3-mini是一个好模型,但DeepSeek R1性能相似,价格更低,并揭示了其推理过程。
更好的模型将会出现(迫不及待想要 o3-pro),但“DeepSeek 时刻”是真实的。我认为五年后它仍会被记住,作为科技历史上的一个转折点。

One More Thing
就在o3-mini上线几小时后,奥特曼本人也携团队参与了Reddit的“有问必答”活动。

考虑到开源DeepSeek最近搅动了AI圈,奥特曼罕见公开反思:
在开源权重AI模型这个问题上,(个人认为)我们站在了历史错误的一边。

甚至也承认,OpenAI的领先优势不会像以前那么大了。
DeepSeek的确很优秀,我们也会继续研发更好的模型,但领先优势将更小。

与此同时,OpenAI的一些未来计划也曝光了。
比如高级语音模式即将迎来更新,OpenAI会直接称它为GPT-5,而不是GPT-5o,不过目前还没有具体时间表。

另外,推理模型也将支持调用更多工具。

最后,满血版o3也被提及,不过看起来距离还相当遥远……

责任编辑:韦子蓉








APP专享直播
热门推荐
吕国泉委员:建议每周上班不超44小时 收起吕国泉委员:建议每周上班不超44小时
- 2025年03月04日
- 11:32
- APP专享
- 扒圈小记
31,490
鸿蒙智行称遭某公司操纵上万账号诋毁 该公司多人已被公安机关缉拿归案并被检察院依法批准逮捕
- 2025年03月04日
- 09:55
- APP专享
- 扒圈小记
8,733
建议推迟中考分流时间
- 2025年03月03日
- 05:32
- APP专享
- 北京时间
7,040

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
宋谈股经今天 03:58:38
3月5日午间收评:沪指半日涨0.32%,工程机械板块集体走强1、市场早间窄幅震荡,三大指数涨跌互现。工程机械板块集体走强,山推股份(sz000680)、柳工(sz000528)、厦工股份(sh600815)涨停。商业航天板块走高,合众思壮(sz002383)、本川智能(sz300964)、东方通信(sh600776)、三维通信(sz002115)等涨停。机器人(sz300024)概念股再度活跃,山东矿机(sz002526)、龙溪股份(sh600592)、捷昌驱动(sh603583)、秦川机床(sz000837)等涨停。下跌方面,房地产板块走低,中洲控股(sz000042)接近跌停。个股跌多涨少,沪深京三市超3800股飘绿,上午半天成交9745亿。午间收盘沪指涨0.32%,深成指跌0.13%,创业板跌0.33%。2、板块概念方面,工程机械、通信服务、芯片、算力等板块领涨;光伏设备、固态电池、房地产、AI医疗等板块领跌; 3、两市共1295只个股上涨,45只个股涨停;3738只个股下跌,4只个股跌停;18只股票炸板,炸板率32%。 -
宋谈股经今天 03:57:40
上午A股数据统计!【更多独家重磅股市观点请点击】 -
北京红竹今天 03:39:20
收摊,下午见 -
北京红竹今天 03:39:03
3、缠论打板也是可以的昨天在【每周内参】的文字中,还有过实战教学呢。南方精工(sz002553)昨天涨停,在五分钟级别属于回落段确立调整结束,可涨停一笔都没用,那么很明显向上一笔需要至少五根K线,今天早上是可以博个溢价的,今天早上冲高5个点左右。不管是长线、波段还是短线,缠论都可以灵活应用,只是千万别一根筋,任何交易都没有一定怎么样,都是成功率。 -
北京红竹今天 03:38:58
2、以沪指为例为什么说沪指新高,就要谈大卖点了呢,咱们以沪指为例,新高之后就会构造五分钟级别2个中枢,就像科创50和人形机器人(sz300024)一样,2个中枢之后就不能谈买入了,可以持有也可以逐步减持。2个中枢上涨在缠论中,我们称之为上涨趋势,上涨趋势怎么谈买点呢?如果市场不新高,进行标准调整,在缠论中上涨找卖点,下跌找买点。日线级别向上没走完,三十分钟级别回落段一旦形成,就是波段的买点,后期还是可以期待一波再次上涨。同理,人形机器人(sz300024)也是如此,如果调整几天那么它还能继续玩,如果持续上涨那就没法玩了。 -
北京红竹今天 03:38:54
1、静等市场变化任何交易都需要有根,市场怎么走都是对的,但你的交易要有原则,买是因为什么买的,可以是根据缠论,也可以根据均线,或者资金情绪以及价值投资,都可以的,这些就是你交易的依据。现在对于市场怎么走都可以,比如说继续大涨新高可以的,继续回落完成日线一笔调整也是可以的。就像早评中所说的一样,如果市场出现阳线反包就找大风险的位置,如果继续调整,完成日线回落段,那我们就寻找机会继续干活。而不是去猜测市场今天要怎么走,猜测市场怎么裤子都穿不上。按照缠论标准的结构,跌破昨天低点之后预备干活,不跌破先不干活。休息也是一种交易。 -
冯矿伟今天 03:37:48
冯矿伟:保持耐心昨天动能背离向上,今天动能背离向下,完全相反,最近一段时间基本都是分化比较严重的,波动也是非常频繁的,所以操作上唯一要做的就是坚持规则,否则很容易在波动和分化中受到情绪的影响,情绪化驱使往往节奏就会乱,所以,保持耐心。 -
数字江恩今天 03:34:20
早盘高点之后,双创表现会1F回踩+横盘;大盘在金融电力等权重支持下,回踩+反弹再创新高。大盘依旧在预期的范围内,即昨日高点以上10个点左右。看个股涨跌比更为明显 -
徐小明今天 03:32:32
【盘中直播】下午见 -
趋势起航今天 03:32:28
市场早间窄幅震荡,三大指数涨跌互现。工程机械板块集体走强,山推股份(sz000680)、柳工(sz000528)、厦工股份(sh600815)涨停。商业航天板块走高,合众思壮(sz002383)、本川智能(sz300964)、东方通信(sh600776)、三维通信(sz002115)等涨停。机器人(sz300024)概念股再度活跃,山东矿机(sz002526)、龙溪股份(sh600592)、捷昌驱动(sh603583)、秦川机床(sz000837)等涨停。下跌方面,房地产板块走低,中洲控股(sz000042)盘中跌停。个股跌多涨少,沪深京三市超3800股飘绿,上午半天成交9745亿。午间收盘沪指涨0.32%,深成指跌0.13%,创业板跌0.33%。