o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭

o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭
2025年02月02日 12:32 市场资讯

  新智元

  新智元报道  

  编辑:KingHZ 桃子

  【新智元导读】一场改写AI历史的震撼对决正在上演!就在昨天,当DeepSeek R1还在用‘降维打击’重构AI格局时,OpenAI王者回归之作o3-mini已悄然降临,用实力证明——王者,从未离场!

  在科技界,一天的时间足以改写历史。

  DeepSeek R1用‘降维打击’重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。

  o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。

  甚至,在‘物理模拟’高难度挑战战场上,o3-mini直接粉碎R1,展现出惊人的实力。

  能够清晰地看出,o3-mini具备更强的物理推理能力,DeepSeek表现出明显的‘反重力’现象。

  prompt:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

  在另一个演示中,更加复杂,不仅要考虑小球与墙壁的碰撞,还要考虑不同小球之间的相互碰撞。

  prompt:Simulate multiple small balls bouncing inside a spinning rectangle. The balls should collide with each other and the walls

  从单球反弹到多球碰撞,从简单物理到复杂系统,OpenAI的仿佛在诉说着‘王者,从未离场’。

  教授Derya Unutmaz对o3 mini表现的进步非常激动:

o3-mini只需一次提示就能准确生成符合物理定律的代码!与此同时,DeepSeek-R1对此却显得很吃力。

这场AI竞赛正在全速加速,后来居上者,拭目以待。目前,OpenAI明显处于领先地位!’

  此外,在‘人类最后一场考试’的纯文本测试集上,新模型03-mini(medium/high)在准确率上超越了DeepSeek-R1。

  奥特曼甚至自信的表示:‘不久,人类就需要另一场考试了……’

  然而,这只是OpenAI新模型的冰山一角。

  奥特曼剧透o3-mini接下来还有更大的惊喜!

o3-mini还有好东西,很快就会给你,我想我们把最好的留到了最后!

  编码吊打o1,最好的编程模型

  在代码补全基准Codeforces排名中,相对o1系列模型,o3-mini进步明显。

  而独立于LLM提供商的性能基准和定价排行,Artificial Analysis表示:‘o3-mini是从o1-mini向前迈出的一大步。’

  同时,公布了o3 mini的初步结果,完整的基准测试结果稍后推出:

  • 人工分析质量指数为89,与DeepSeek R1匹配,略低于o1

  • 更便宜 - 每百万个token1.1美元/4.4美元的输入/输出定价,低于许多 DeepSeek R1 API(高于DeepSeek的甲方R1 API定价)

  • 快速-与o1-mini的速度相似,为170个token/秒,尽管这意味着2000个代币的‘思考’时间仍然需要 ~12 秒

  其中人工分析质量指数(Artifical Analyssi Quality Index)包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多个测试基准。

  相关排名如下:

  AI初创企业CEO,Bindu Reddy,整体上o3击败了R1,特别是在编码方面,让人大吃一惊。

  她认为综合考虑性能、速度和价格,o3-mini high是目前最好的大语言模型(LLM):

  • 在编程上,o3-mini high大幅度领先o1、Sonnet以及其他模型

  • o3-mini high比Sonnet便宜2倍,比o1便宜15倍

  • o3-mini high比R1快约5倍

  • 在所有类别中,o3-mini high仅次于01,是第2名最佳模型

  具体结果如下:

  对此,OpenAI研究员Clive Chan表示:‘我每天都在cursor中使用o3-mini,它绝对是最好的编程模型。我基本上完全信任它的Python代码(不再有误解/偷懒的问题),而且即使我当前的项目涉及3种我不熟悉的编程语言,o3-mini也帮了大忙!’

  全网实测

  那么,o3-mini真实实力究竟如何?

  如下来自全网实测的最全演示,即可揭晓谜底。

  o3-mini彻底掌握了arXiv

  OpenAI研究科学家Sebastien Bubeck表示,o3-mini是一个了不起的模型。

  在理解和解析arXiv论文方面,o3-mini达到了全球独一无二的水平,成为真正的科研伙伴!

  下面是一个看似简单但会让所有其他模型都感到困惑的问题,而o3-mini却能给出极其有用的答案。

  它完全说到了点子上:与自收缩曲线的联系、依赖于维度的界限,甚至还引用了相关论文。

  下面这个例子是Sebastien在不同主题的另一个查询。

  有趣的是,o3-mini-high给出的参考文献‘Bubeck and Ganguly’并不完全正确,但确实非常相关。

  总的来说,它给出的参考文献都是‘模糊准确的’,可能会混淆作者/期刊/标题,但令人惊讶的是这些引用仍然很有用。

  他又表示,这些都是相当冷僻的问题,能够回答这两个问题的论文少于100篇(实际上更接近约10篇)。

  能有一个模型可以回答只有O(10)数量级的人类知道答案的问题,这确实令人惊叹。

  此外,Sebastien又演示了一个用o3-mini构建‘我的世界’的演示。

  AI物理新巅峰,轻松击败R1

  Hyperbolic联创Yuchen Jin测试后惊叹道,o3-mini可能是目前最强的物理推理LLM!

  o3-mini竟然成功生成了四维超立方体(Tesseract)内反弹小球的Python代码,展现出惊人的物理推理和数学建模能力。

  再来看R1的表现,显然不如o3-mini。

  再来看o3-mini-high,demo中竟然翻车不如o3-mini?

  Yuchen Jin多次尝试后发现,o3-mini-high在这个任务上表现糟糕,甚至比一次性生成的o3-mini版本还差!

  其中一个版本居然只生成了小球,没有四维空间结构……

  另一个很好展现o3-mini理解物理世界的demo。

  ‘被o3-mini震撼到了(不仅仅是因为它的编程能力),更因为它那闪电般的速度。

  它仅用19秒就一次性生成了这四个演示。我从未见过类似的东西。一个新的AI时代已经到来’。

  

  沃顿商学院教授Ethan Mollick让o3-mini-high首次挑战生成动态海洋风暴Shader,没想到竟然成功了!

  18秒,克隆一个应用

  另一位OpenAI研究员Aidan Clark表示:‘o3-mini在智能和速度的组合方面令人难以置信,我不知道该说什么,你只能自己去试试看了。’

  在下面demo中,Clark要求o3-mini用单个Python文件写一个Twitter克隆应用。

  整个过程只用了8秒。

  一句话,生成游戏

  更令人惊叹的是,开发者Alex Finn仅用1个提示,o3-mini便能生成完整的太空游戏。

  用一句话制作的‘贪吃蛇’游戏。

  另一个动漫小人射击游戏。

  还有网友通过o3-mini-high制作的太阳系3D模拟。

  网友adi让o1和o3-mini分别建造一个巨大的、令人惊叹的、史诗般的漂浮城市。

  OpenAI王者重归

  OpenAI的策略,已经重新获得了用户的‘芳心’。

  开发者Mckay Wrigley已经用o3-mini模型代替AI智能体和工作流中的o1模型。一切都正常工作,甚至有一些表现的更好,但是便宜了9倍,速度快了4倍。

  他认为:‘OpenAI对新模型的宣传明显不足——这绝对令人难以置信。o3& o3 Pro会很疯狂。’

  根据Information报道,OpenAI2024年快速增长:

  • 2024年,ChatGPT付费订阅用户已达1550万。

  • 企业的模型采用率增长了7倍。

  • 新推出的200美元/月Pro订阅计划,年收入已达3亿美元。

  网友Prakash,则在X上列出了OpenAI的各部分收入:

ChatGPT Plus

  • 月经常性收入(MRR):3.33亿美元

  • 订阅价格:20美元/月

  • 月活用户(MAU):1665万

ChatGPT Pro

  • 月经常性收入(MRR):2500万美元

  • 订阅价格:200美元/月

  • 月活用户(MAU):12.5万

ChatGPT总收入

  • 月经常性收入(MRR):3.58亿美元

  • 年经常性收入(ARR):43亿美元

API收入

  • 每分钟处理Token数量:14亿

  • 每年处理Token数量:735万亿

  • 每百万Token价格(以o3 mini输入价格计算):1.1美元

  • 年经常性收入(ARR):8.09亿美元

总收入

年经常性收入(ARR):51亿美元

  他表示:‘有趣的是,API收入远小于ChatGPT订阅收入,真正推动增长的还是消费级应用。’

  网友Andrew Gao表示Anthropic正在吃掉OpenAI的市场份额。

  OpenAI在企业客户中的份额从2023年的50%下降到了2024年的34%,具体如下:

  OpenAI早已与美国政府合作,确保AI领域的领先地位。

  在参加特朗普的就职典礼并宣布‘星际之门’后,OpenAI首席执行官奥特曼,连续第二周来到华盛顿特区。

  就在近日,在国会山附近的一次非正式演示中,奥特曼向美国政府领导人、政策专家和记者展示了即将推出的技术。

  目的不仅是展示美国如何最大化人工智能带来的经济利益,还希望让华盛顿的领导者提前了解即将到来的技术能力,以减少他们在未来措手不及的可能性。

  谈到能够自主完成现实世界任务的新型自主智能技术时,奥特曼表示:[我的直觉是……对美国经济贡献,这些技术将占个位数百分比。’

  但与政府合作,并不是OpenAI唯一的选择。

  外媒报道称,OpenAI为了实现增长,寄希望于更高级模型驱动的ChatGPT的高价订阅。

  参考资料:

  https://x.com/EyeingAI/status/1885652167257940174

  https://x.com/jam3scampbell/status/1885752009766137897

  https://x.com/bindureddy/status/1885517599083307433

新浪声明:此消息系转载自新浪合作媒体,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
海量资讯、精准解读,尽在新浪财经APP

责任编辑:凌辰

16条评论|34人参与网友评论
最热评论
上古元龙山东烟台
开源吗?
2月2日17:14举报7回复
看云即是仙了湖南益阳
王者个毛,拿他不擅长的去和美国擅长的比,肯定比不赢,你和他比比周易看谁厉害
2月2日18:10举报3回复
田村八叔河南郑州
你怎么变节了?难道是美国人?
2月2日17:46举报3回复
最新评论
哪里能举报?
2月4日10:29举报回复
用户7760748270福建福州
ds🤮
2月2日21:16举报回复
Va生活wp新疆伊犁哈萨克自治州
o3-mini确实厉害,各项表现都很出色!
2月2日20:30举报回复

APP专享直播

开播时间 | 3-10 10:00
华安基金刘璇子:DeepSeek如何引领投资新浪潮
开播时间 | 3-10 10:00
国投瑞银:国投瑞银基金会客室 | 2025年宏观经济展望
开播时间 | 3-10 09:00
华夏基金:解盘一刻
开播时间 | 3-10 09:00
光大证券雪姐:阳光早参-A股陷入调整!有何扰动因素?
开播时间 | 3-10 08:50
政协会议闭幕会
开播时间 | 3-10 07:43
第三场委员通道
开播时间 | 3-09 19:00
华安基金倪斌:ETF会客室:港股掘金:深度解析恒生科技
开播时间 | 3-09 14:57
十四届全国人大三次会议民生主题记者会
开播时间 | 3-08 20:21
「金融街话两会」对话全国政协委员、申万宏源证券杨成长:视角与对策 三类形态看经济
开播时间 | 3-08 18:00
“我们WOMEN走在前线”暨2025复旦科创先锋论坛
开播时间 | 3-10 10:00
华安基金刘璇子:DeepSeek如何引领投资新浪潮
开播时间 | 3-10 10:00
国投瑞银:国投瑞银基金会客室 | 2025年宏观经济展望
开播时间 | 3-10 09:00
华夏基金:解盘一刻
开播时间 | 3-10 09:00
光大证券雪姐:阳光早参-A股陷入调整!有何扰动因素?
开播时间 | 3-10 08:50
政协会议闭幕会
开播时间 | 3-10 07:43
第三场委员通道
开播时间 | 3-09 19:00
华安基金倪斌:ETF会客室:港股掘金:深度解析恒生科技
开播时间 | 3-09 14:57
十四届全国人大三次会议民生主题记者会
开播时间 | 3-08 20:21
「金融街话两会」对话全国政协委员、申万宏源证券杨成长:视角与对策 三类形态看经济
开播时间 | 3-08 18:00
“我们WOMEN走在前线”暨2025复旦科创先锋论坛
上一页下一页
1/10

热门推荐

大疆员工回应晚上9点被强制下班 收起
大疆员工回应晚上9点被强制下班

大疆员工回应晚上9点被强制下班

  • 2025年03月09日
  • 05:35
  • APP专享
  • 扒圈小记
  • 31,105
APP专享
再次超越!《哪吒2》票房进入全球票房榜前6名

再次超越!《哪吒2》票房进入全球票房榜前6名

  • 2025年03月09日
  • 10:48
  • APP专享
  • 扒圈小记
  • 4,282
APP专享
大消息!特朗普、马斯克,突发!

大消息!特朗普、马斯克,突发!

  • 2025年03月09日
  • 23:57
  • APP专享
  • 北京时间
  • 2,059
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.18 0.00%
京东方A 4.42 0.00%
TCL科技 4.73 -0.84%
中远海控 13.65 -0.66%
格力电器 41.85 -0.02%

7X24小时

  • 01-17 宏海科技 920108 5.57
  • 01-16 海博思创 688411 19.38
  • 01-16 亚联机械 001395 19.08
  • 01-14 富岭股份 001356 5.3
  • 01-13 超研股份 301602 6.7
  • 新浪首页 语音播报 相关新闻 返回顶部
    关闭
    关闭