OpenAI o3模型登场，人类离AGI又近一步|推理_新浪财经

导读：2024年12月20日，OpenAI发布了下一代推理模型o3，这是其在9月发布的o1模型的最新版本。同时，OpenAI表示，在某些条件下o3模型可以接近实现AGI（通用人工智能）。o3模型有什么特点？国内AI大模型进展如何？投融资情况如何？本文尝试分析和探讨。

01 o3模型特点

2024年9月13日凌晨，OpenAI发布了o1模型，该模型包括两个版本，即o1-mini和o1-preview。OpenAI表示，在复杂推理任务方面，新模型代表了AI的新水平，因而将其计数重置为1，而不是延续“GPT-4”的系列命名。o1模型的最主要特点是具备更高的理解能力和深度思考能力，推理能力的显著提升也标志着AI进入了一个新时代。

自12月6日起，OpenAI开启为期12天的产品发布会，并在发布会第一天发布了o1模型的完整版本。相较预览版，o1完整版更快、更智能，支持多模态推理，同时其错误率降低了约34%，思考速度提高约50%。

在为期12天的发布会的最后1天，OpenAI发布了新一代推理模型系列o3（由于一家英国电信运营商简称为O2，考虑到商标权益问题，OpenAI将新模型命名为o3），该系列包含两个模型，即o3和o3-mini，前者是高性能推理模型，后者是更小的精简版模型，在保持智能的同时优化性能和成本。

就o3模型而言，在性能方面，o3模型在软件基准测试（SWE-bench Verified）上的准确率为71.7%，较o1提升超20%；在Codeforces竞赛编程上的评分达到2727，接近OpenAI内部的顶尖程序员水平；在AIME数学竞赛的准确率达96.7%，超越o1的83.3%。

此外，o3模型在ARC-AGI 测试上首次突破了人类水平的门槛（85%），达到了87.5%，这是OpenAI在实现AGI（通过人工智能）征途上取得的又一项关键进展，这也意味着人类离AGI又近了一步。但o3模型的使用成本高昂，o3模型每项任务在高计算模式下的成本可高达数千美元，而o1模型的每个任务成本仅为5美元，o1-mini只需几美分。高昂的成本，使o3模型暂无法大规模推广。

图表 1：OpenAI模型性能概况

数据来源：OpenAI、RimeData来觅数据整理

02 国内AI大模型进展

回看国内，现阶段AI大模型领域呈现大型互联网/科技企业占主导、初创企业崛起、科研院所及高校助力的局面：

（1）大型互联网/科技企业：以百度、阿里、腾讯、字节跳动、华为、科大讯飞等为代表，其凭借雄厚的资金实力、行业领先的技术、丰富的算力和数据资源，在AI大模型市场占据重要地位，如百度文心大模型日均tokens调用量已超1.5亿次，字节跳动的豆包AI大模型累计用户规模超1.6亿；

（2）AI初创企业：智谱、月之暗面、MiniMax、百川智能等AI初创企业获得资本青睐，业务处于快速发展中。如智谱在12月完成最新一轮融资，达30亿元，同时其在2024年前11个月的商业化收入同比增长超100%，C端产品智谱清言App用户数超2,500万；

（3）科研院所及高校：北京智源研究院、上海人工智能研究院、清华大学、复旦大学、中国科学院等多家科研院所及高校积极参与AI大模型，推动行业技术的研发与创新。

在具体大模型性能方面，智源研究院（2018年在科技部和北京市支持下联合北京人工智能领域优势单位建成）最新一期发布的大模型评测榜单显示，在大语言模型方面，字节跳动旗下豆包通用模型pro(Doubao-pro-32k-preview)排名第一；在视觉语言模型方面，豆包·视觉理解模型（Doubao-Pro-Vision-32k-241028）排名第二，仅次于GPT-4o；在文生图方面，腾讯的Hunyuan-Image、字节跳动的Doubao Image v2.1位列第一、第二名；在文生视频方面，快手的可灵1.5「高品质版」、字节跳动的豆包视频生成模型（即梦 P2.0 pro）分别为第一、第二名。

图表 2：各类大模型评测TOP3

数据来源：智源研究院、RimeData来觅数据整理

同时，幻方量化旗下的DeepSeek（深度求索）公司在近期上线了DeepSeek V3模型。DeepSeek V3性能优异，在Aider多语言编程测试排行榜中，DeepSeek V3超越了Claude 3.5 Sonnet，仅次于o1，位居第二；在国际权威榜单LiveBench测评中，DeepSeek V3是当前最强的开源LLM（大型语言模型），并在非推理模型中仅次于gemeni-exp-1206。DeepSeek V3的性价比高，根据DeepSeek披露的技术报告，DeepSeek V3总训练成本为557.6万美元，而前OpenAI研究副总裁、现任Anthropic CEO的Dario Amodei近期透露，当前的大模型如GPT-4o等，训练成本约1亿美元，但他预计这些大模型的训练成本在3年内可能达到10亿美元甚至1,000亿美元。这意味着，DeepSeek V3在资源有限的情况下最大化了效率。

但也存在一些争议，因为DeepSeek V3的优化是针对特定架构或任务设计的，通用性还有待提升，且DeepSeek V3此次公布的成本只包括了单次训练环节的成本，暂未包括与架构、算法或数据相关的前期研究或精简试验的成本。尽管如此，DeepSeek V3的出现，也说明了国内大模型企业可通过性价比更高的方式去探索模型的极限能力。整体看，在各企业持续加大对AI大模型投入的背景下，国内大模型的能力已在快速提升，不断接近甚至在某些领域超越全球领先大模型。

在产业落地方面，在大模型性能不断提升的背景下，大模型已在金融、医疗、政务、工业等各行业实现更深度的应用，如豆包AI大模型已与多家主流汽车品牌达成合作，并接入多家手机、PC等智能终端，覆盖的终端设备约3亿台，同时智能终端的豆包AI大模型调用量在半年时间内增长了100倍。从项目中标角度看，据公开资料显示，2024年前11个月国内大模型中标项目共728个，中标总金额为17.1亿元，分别是2023年的3.6倍、2.6倍。这表明市场对大模型的需求快速提升，也反映出AI技术在央国企中的渗透程度不断加深。

AI大模型竞争较为激烈，据《全球数字经济白皮书(2024年)》统计，全球的基础大模型已有1,328个，中国的大模型为478个，约占全球数量的36%，可见大模型产品的诞生速度之快。众多企业涌入大模型领域，行业竞争不可避免。自2024年5月以来，国内企业纷纷开启大模型价格战，如阿里云在5月21日宣布通义千问主力模型Qwen-Long进行降价，API输入价格从0.02元/千tokens下降至0.0005元/千tokens，降幅达97%；字节跳动在12月18日宣布豆包视觉理解模型每千tokens输入价格为0.003元，即用户花费1元钱可处理284张720P（像素）的图片，比行业平均水平便宜了85%，进一步降低企业使用多模态大模型的成本。

随着行业的快速发展，AI大模型马太效应已逐步显现。大模型的持续发展要求企业不断投入资金等各种资源，不断开发更强大的大模型保持领先优势，并且触达足够规模的最终用户进行商业变现。因此，尽管此前众多企业参与大模型业务，但仅有少部分大型互联网/科技企业（如百度、阿里、腾讯、字节跳动等），以及融资能力强的AI初创企业（如智谱、月之暗面、MiniMax等），至今仍是大模型市场的活跃参与者。为了实现商业价值，AI大模型也在逐步走向应用，走向广大用户和开发者，通过各种服务获取收益。未来，AI大模型在各行各业的应用价值将进一步显现。

03 AI大模型投融动态

从融资角度看，2024年以来，AI大模型融资金额在十亿元及以上的事件已有10起，合计融资金额超820亿元。AI大模型仍是市场的关注重点，但受整体一级市场的热度有所降温的影响，投资机构更加谨慎，具有强大的技术实力和品牌影响力的企业获得更多融资，呈现一定的头部效应。例如，智谱在12月完成了30亿元的融资，此前其在9月份也完成了数十亿元的融资；百川智能在7月也完成了50亿元的融资。

在投资机构方面，参与AI大模型的机构包括君联资本、红杉中国、达晨财智等知名专业投资机构。同时，国资机构也加大对AI大模型领域的支持，如北京国管参与爱诗科技、面壁智能的融资，北京中关村科学城参与智谱的融资等。此外，互联网巨头也深度参与其中，如阿里巴巴、腾讯投资了智谱、百川智能、月之暗面等。这表明，市场对这一关键技术领域的发展更给予重视和支持，众多投资主体的参与也将为AI大模型领域带来更丰富的资源，进一步促进AI大模型技术创新和产业生态的完善。

图表 3：2024年全球AI大模型赛道十亿元及以上投融事件