对于OpenAI的连续发布，有人直言失望，但其技术整合和工程能力不容忽视|推理_新浪财经

转自：上观新闻

继谷歌发布推理模型后，美国知名人工智能研究公司OpenAI日前推出了最新的推理模型——o3。这个月，在过去的12个工作日，OpenAI每天直播发布一款新产品或新功能，o3正是其最后一天的“重磅发布”。

作为一款推理模型，o3有何亮点？对于OpenAI在2025年即将到来之际的连续发布，作何评价？解放日报·上观新闻记者专访了上海交通大学人工智能学院长聘教轨副教授温颖。

【跳出“模仿式学习”框架，引入“强化学习”】

“我觉得最惊喜的还是第一天发布的o1 Pro版本，我自己尝试了一下，能力确实很强。相较o1 Pro，最后一天发布的o3算是一个扩展和升级版本，但本质上没有太大区别。”温颖说。

在AIME（美国数学邀请赛）2024评测中，o3取得了96.7%的准确率。为考察人工智能在高级数学推理方面的能力，国际上60多位顶尖数学家联合开发了数学基准测试工具FrontierMath，之前GPT-4的准确率还不足2%，而o3的准确率达到空前的25.2%。

12月24日，一张在自媒体中广为流传的图片甚至显示，o3推理模型的智商已经高达157。“其实，这些评测就是做一些题目，只能作为一种参考。可能确实在某些领域，已经超过一些人群的水平。但实际模型的使用并不是做题，而且每个人的问题和需求不一样，还是要以实际体验为准。”温颖认为。

相较对话式语言模型，推理模型有何不同？“对话式模型只是单纯地根据给出的提示词做预测，它在训练过程中并没有被要求去‘思考’。”

在温颖看来，不论是o1 Pro还是o3，其最大的技术亮点在于跳出了机械的“模仿式学习”框架，引入了“强化学习”，通过多步思维从而学会了结构化推理。

强化学习是一种交互式学习方式，通过引导思考并对其进行正向或负向反馈后，再引导其继续思考和推理。

据悉，o3能够进行一些复杂任务的推理，尤其在数学、编程和科研任务等领域的表现要优于o1 Pro。

不过，o3推理模型需花费昂贵的算力资源，即使在低计算量模式下，解答一个问题平均需要花费20美元的算力，而在高计算量模式下，算力成本高达两三千美元。

【横向比较，o3推理模型至少领先一个身位】

当下，国内外也推出了一些推理模型。o3推理模型处于什么技术水平？

“横向比较的话，我觉得还没有其他模型能比得上o3推理模型，至少相差一个身位。”温颖说。其他推理模型主要针对数学任务做了一些训练，在这一领域可能接近o1水平，但在其他编码或科学领域的效果还是差很多。

此外，o1推理模型在图像识别等多模态领域也表现不俗。“我曾经给o1和其他模型分别‘看’过一个相当复杂的地势图，有很多细节，我都看不懂，只有o1能够完整地归纳图上的信息，其他模型连图片都不认识，差距还是挺大的。”

OpenAI的推理模型距离通用人工智能还有多远？

“关于通用人工智能的标准，其实目前还不是很统一。尽管推理能力是通用人工智能发展的关键阶段，但对应OpenAI自己的通用人工智能五级标准，也还只是第二级。”温颖介绍，与人类自然对话的聊天机器人是一级，解决复杂问题的推理者是二级，长时自动化工作流的智能体是三级，提出原创想法的创新者是四级，管理复杂系统的组织者是五级。

值得一提的是，尽管o3推理模型可以思考和解答一些复杂的问题，但对于一些简单的问题还是会出错。

在温颖看来，这主要还是数据资源受限。此外其本质上还是一个自回归模型，即根据之前的预测内容再进行下一次预测，也就是把自己预测的结果当成依据再预测下一个，这就导致出错的概率还是比较大。

【OpenAI追求技术的快速筛选和验证】

对于OpenAI这次连续的发布，有的人直言有些“失望”，是创新力不足了吗？

“如果从学术角度看，除了两个推理模型给人以惊喜，其他确实只是在原有基础上的小的改进。但不容忽视的是，这家公司有很强的技术整合能力和工程能力，从而实现技术的快速筛选和验证。”温颖说，OpenAI一旦发现某个技术可行，就会坚定并全力地用庞大的数据量和训练量将其扩展，把这一技术做出效果，“其实很多时候有效的东西就是最简单的，OpenAI的这种思维和执行力，值得借鉴。”

OpenAI为何不集中发布而分散在12个工作日“挤牙膏”式发布？温颖觉得，此举不排除为了吸引更多注意力，毕竟12个工作日至少可以制造两周的“话题”。‌

当然，这背后离不开资金链的压力。尽管OpenAI初创时大家都很有情怀，但毕竟人工智能技术太“烧钱”和耗费算力资源，否则一旦资金链断裂，技术“扩展”路线就走不下去了。

OpenAI此次还推出了新的收费模式——订阅ChatGPT Pro的用户需每月支付200美元，这是之前订阅ChatGPT Plus价格的10倍。会有人愿意自掏腰包吗？

“200美元的收费还是有市场的，我自己用了觉得很值得。这个定价一方面是成本考虑，因为每次调用都需要算力支持，另一方面，强大的人工智能给真正有需求的人使用，其产生的价值远超200美元。”温颖说。