海通计算机 | OpenAI o1初探：或能成为引领AI Phenomenal Ride的LLM新范式|推理_新浪财经

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

重要提示：《证券期货投资者适当性管理办法》于2017年7月1日起正式实施，通过本微信订阅号发布的观点和信息仅供海通证券的专业投资者参考，完整的投资观点应以海通证券研究所发布的完整报告为准。若您并非海通证券客户中的专业投资者，为控制投资风险，请取消订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限，若给您造成不便，敬请谅解。我司不会因为关注、收到或阅读本订阅号推送内容而视相关人员为客户；市场有风险，投资需谨慎。

杨林（金麒麟分析师）

海通计算机首席分析师

S0850517080008

OpenAI发布o1系列大模型，AI大模型进入新纪元。9月12日，OpenAI宣布开发了一系列全新AI模型：OpenAI o1，与之前的模型相比，这些模型能够更好地进行推理，这是一项重大进展，代表了AI能力的新高度。o1在物理、化学和生物学等困难的基准任务中表现与博士生相似，此外，o1在数学和编程领域也表现优异。在国际数学奥林匹克竞赛的资格考试中，GPT-4o仅正确解答了13%的问题，而OpenAI o1的正确率达到了83%。在Codeforces编程比赛中，OpenAI o1的表现达到了第89个百分位。OpenAI o1系列的首个模型已被发布，这是一个预览版本，其被命名为OpenAI o1-preview。此外，OpenAI还发布了OpenAI o1-mini，这是一款具有成本效益的推理模型。o1-mini在STEM领域表现出色，尤其是在数学和编程方面，几乎与OpenAI o1在评估基准（如AIME和Codeforces）上的表现相当。o1-mini成本比o1-preview便宜80%，o1-mini推理速度远超o1-preview，OpenAI预计，o1-mini将成为一个快速且经济高效的模型，适用于需要推理但不依赖广泛世界知识的应用。

全新的推理范式：思维链条+自我对弈强化学习。OpenAI o1带来的是推理范式的全面革新，即利用大语言模型学习推理（Learning to Reason with LLMs）。 OpenAI的大规模强化学习算法通过高度数据高效的训练过程，教会模型如何通过思维链条进行有效推理。OpenAI发现，o1模型的性能随着更多的强化学习（训练时的计算量）以及更多的思考时间（测试时的计算量）而持续提升。与人类在回答难题前长时间思考的方式类似，o1在尝试解决问题时也运用“思维链条（CoT，Chain of Thought）”。通过强化学习，o1学会了优化其思维链条，并精炼所使用的策略。它能识别并纠正错误，学会将复杂的步骤拆解为更简单的部分，并在当前方法无效时尝试不同的方式。这个过程极大地提升了模型的推理能力。我们认为，OpenAI o1并非是颠覆式的技术革命，但是其在工程化上已经达到了领先的地位，其在自我对弈强化学习（Self-play RL）、思维链条（CoT）、过程奖励模型（PRM）等技术实践运用方面取得了显著的进步，并且在深度思考和复杂推理上展现出了较高的能力。我们认为，o1代表着Scaling up从预训练到推理的转变。o1带来的大模型技术创新，正推动AI向更深层次的智能推理与问题解决能力发展。

OpenAI o1，能给AI带来什么？我们认为，OpenAI o1的命名，从某种意义上摆脱了GPT（Generative Pre-trained Transformer）这一过去命名过分强调预训练（Pre-trained）的意味，而是让它更成为一个更强调推理能力训练的模型系列，从某种意义上，OpenAI o1确实是第一个“推理模型”。在推理密集型的任务类别中，如数据分析、编程和数学，o1相较于GPT-4o有显著优势，在某种程度上，我们认为，可以说o1在部分细分领域已经接近了当前人类的天花板，这就使得o1在部分细分的应用场景，已经接近“替代大部分人类”这一目标。当然值得注意的是，o1目前仍处于AI发展的初级阶段，不过 o1在最新门萨智商测试中，IQ水平超过了120分，这也代表着o1这类大模型所蕴含的巨大潜能。o1所采用业界前沿技术，我国大模型业界也在同步研究和实践应用中，o1系列模型的发展也为我国大模型的发展指出了一条新路，有望助推相关技术在我国AI业界更快实践发展。我们相信，o1代表的是全新的大模型推理范式，也许数十年后，回望如今，我们也能说出，我们很幸运能够“at the right place at the right time”，这是属于AI的“Phenomenal Ride”。

风险提示。AI技术发展不及预期，AI商业落地不及预期，市场竞争加剧的风险。