昆仑万维颜水成畅谈OpenAI o1：会让一波创业公司重新复活_新浪财经

北京时间9月13日凌晨，OpenAI在官网发布了其最新一代模型，没有延续过去GPT系列的名称，新模型起名为o1，当前可以获取o1-Preview和o1-mini这两个版本。

当天，Sam Altman在社交平台上兴奋地称，“‘o1’系列代表新范式的开始”。

o1第一时间发布后，在极客公园创始人&总裁张鹏的邀请和主持下，昆仑万维（维权）首席科学家兼2050全球研究院院长颜水成和创新工场联合首席执行官/管理合伙人汪华，在“今夜科技谈”直播间一起聊了聊o1所代表的新范式及创业者脚下的路。

以下是直播精华内容，与大家分享：

推理能力明显增强，“o1”释放了明确的技术信号，但更期待下一个里程碑

当你拿到o1之后，最先想做的事情是什么？

当颜水成拿到o1做的第一件事情是，把女儿做的数学题输进去看结果，o1的表现令人惊喜。它解题的逻辑顺序、总结的CoT（Chain of Thoughts，思维链）信息，让人觉得很不一般。

如果是用GPT-4或GPT-4o，只是做下一个token（词元）的预测，其实我们心里会打鼓、会怀疑：只是做下一个词元的预测，是不是就能实现复杂推理过程。

但o1相当于在回答问题之前，先引入用CoT（思维链）表示的思考过程，把复杂问题先用planning（规划）的方式将任务拆解，再根据规划的结果一步步细化，最后把所有结果做总结，才得到最终结果。

一个模型的好与不好，关键在于它是不是直觉上能解决问题。

GPT-4和GPT-4o还是一种快思考，这种快思考不太适合解决复杂推理问题；但是o1是一种慢思考的过程，像人一样思考，更可能解决一个问题，尤其是跟数学、编程或者逻辑有关的问题。o1所代表的技术路径未来会走得非常远，带来非常大的想象空间。

强化学习不新鲜，如何用合适的方式把CoT（思维链）生成是o1跟其他的强化学习区别最大的地方

o1已经能在一些领域展现出复杂推理的能力，其中很重要的原因是，强化学习在o1系列模型里扮演了非常重要的作用。那么怎么理解强化学习在新一代模型里起的作用？

颜水成表示，强化学习是一个存在时间蛮长的方向，把这个技术用得最好的团队应该是谷歌DeepMind，他们一开始就是从这个角度出发，去解决真实世界的实际问题。

“个人觉得强化学习在o1里最核心的点，不在于使用强化学习，因为强化学习在GPT 3.5里就已经用了PPO（一种强化学习算法），用一个奖励函数去指导PPO，进而优化模型参数。”颜水成总结道。

强化学习优化一个描述长期累计rewards的目标函数，而原先传统算法只是求解损失函数。相当于，在优化policy action（策略动作）的时候，需要考虑未来所有奖励的总和。

具体来说，像在围棋博弈中，它会用self-play（自我博弈）的形式去收集action-status序列，这个过程自动生成一个奖励值，而不是说去学一个奖励函数。它是直接自动产生出奖励，或者说人工可以定义奖励，用这些奖励就可以把策略学出来，然后逐步提升策略。它最大的特点是整个过程不需要人类干预，不是像RLHF（根据人类反馈的强化学习），有很多的步骤需要人去反馈。

我觉得其实o1跟原来的强化学习有一个最本质的差别。有人认为，o1的原理可能与斯坦福大学团队（E Zelikman et al, 2024）发表的Quiet-STaR研究成果最相关。Quiet- STaR的一个特点是从CoT（思维链）的角度出发，但是CoT并不是一开始就存在。

要做推理问题，原本有最初的文本存在，如果在文本里面再插入一些CoT（思维链）的信息，它就能提升推理效果。但当我们希望去解决通用的、复杂的推理问题时，大部分的情况下CoT是不存在的。那么在强化学习的pipeline（流程管道）里面，如何把这些CoT的信息一步一步生成出来是非常困难的。

上一代的强化学习，可能更像下围棋，通过别人已有的棋局，先学了一些东西以后再接着往前走。如果要做通用、复杂推理的话，它就会碰到很多从零开始（zero start），可能一开始根本没有CoT的数据，这种情况大概怎么去做学习，有待探索。

这就要问o1的模型架构是什么？

是一个模型它既可以去做规划，又可以根据规划去生成CoT，又可以做自我反思（self reflection），又可以做验证，最后做一个总结，这些所有的事情。还是说其实是好几个模型，一个模型根据信息生成CoT，另外一个模型做反馈，两个模型相互交互，逐步把结果生成。目前o1还不是特别清楚，两种可能都能做，单一模型可能会让整个过程更优雅。第二种可能实现起来会更容易一些。

如何用合适的方式把CoT（思维链）生成，我觉得这是o1，跟其他的强化学习区别最大的地方。这里的细节还不是很清楚，如果清楚的话，o1的黑盒问题可能就解决了。

大概率可以预测o1这个框架里面应该还是有一个奖励函数存在的，不然就没办法推演到通用的复杂推理。

“o1”发展下去，更接近一个“超级智能体”

o1跟此前的GPT系列相比，可以理解为两个技术方向。

o1表现出来的行为不再是下一个token的预测了，而更像是一个超级智能体的样子，未来可以处理多模态、可以处理工具，可以处理存储记忆，包括短期和长期的语义记忆。颜水成认为o1这个技术方向肯定是对的，从GPT-4到o1的话，其实就是从“系统-1”到“系统-2”的一个转变。

之前颜水成提到过，AGI的终局可能是什么，当时提到了两个概念，一个概念叫做Global Workspace（全局工作空间），一个叫超级智能体。

Global Workspace（全局工作空间）在心理学和神经科学领域里的一个理论，是说大脑里除了专用的子系统，比如视觉、语音，触觉等子系统之外，可能还存在一个区域叫做Global Workspace（全局工作空间）。

如果“系统-2”，就是多步和多模型的形式一起来完成的话，现在CoT（思维链）产生的结果，它非常像Global Workspace（全局工作空间）的工作原理。用一个注意力的模型，把文本的、未来多模态的、工具等信息都拉到这个空间，同时也把你的目标和存储的记忆都拿到这个空间里进行推理，尝试新的策略、再做验证、尝试新的可能性……不停地往前推理，演绎的结果就是最终得到分析的结果。推理时间越长，就相当于在Global Workspace里的推演过程越长，最终得到的结果也会越好。

对于复杂的任务无法用“系统-1”（快思考）一竿子到底，就用“系统-2”（慢思考）的Global Workspace，把信息逐步分解、推演，同时又动态地去获取工具，动态地去获取存储记忆，最后做总结，得到最后的结果。

所以颜水成判断，o1发展下去，可能就是“系统-2”（慢思考）的Global Workspace的AI实现方式，如果用AI的语言来描述的话，其实它就像是一个超级智能体。也就是说，o1发展下去，可能就是一个超级智能体。

LLM+RL的模式，是否可以通向泛化推理？

颜水成指出，原来的强化学习泛化性能不好。每次可能是专门针对一个游戏、或者一组类似的游戏去学一个策略。但是现在它要做通用的复杂推理，面对所有问题都要有能产生CoT的能力，这就会变成是一个巨大数据的问题和工程的问题。

在数学、编程、科学这些问题上，可能比较容易去造一些新的CoT数据，但是有一些领域，想要无中生有地生成这些CoT数据，难度非常高，或者说还解决得不好。

要解决泛化的问题，数据就要足够多样，但在通用场景的推理泛化问题上，这种CoT的数据到底怎么生成？

或者也有可能根本就没有必要，因为那个问题可能已经解决得很好了，你再加CoT可能也没有意义，比如说在有一些问题上，可能感觉o1没有带来本质的效果提升，可能因为那种问题本来就已经解决得非常不错了。

到底如何理解Sam Altman所谓“新范式的开始”，有几分可信？

作为这次OpenAI发的新模型，“o1”不再延续过去GPT系列的叫法，比如GPT 四点几，而是开启了o系列新模型代号。同时Sam Altman称这是一次新范式的开始。我们应该怎么理解这个所谓的新范式？

根据颜水成的思考来讲，如果按照Global Workspace这套理论去对照“系统-2”（慢思考）和“系统-1”（快思考），o1和GPT-4是有本质差别的，其中最大的差别在于，它会在解决问题的过程中产生CoT（思维链）。

一年前有人说Ilya Sutskever（OpenAI联合创始人）在“草莓模型”（o1之前的代号叫草莓）里发现了一些让人震惊的、可怕的事情。今天可以大概推测，他当时到底在草莓模型里面发现了什么东西。颜水成觉得他发现的就是AI的学习过程，RL（强化学习）和CoT（思维链）相结合，他发现系统具备自己挖掘CoT（思维链）的能力。

颜水成认为，CoT的过程，不是纯粹从已有的知识里去提取知识。CoT的过程跟人类的思考过程一样，会展开不同的分析组合，包括验证、自我反思等。CoT过程结束之后，其实一个新的知识就产生了，因为你其实会对以前的知识进行再加工，可以认为这是一个新知识。

当模型具备自动产生CoT的能力，意味着它有知识发现和知识增长的能力，新的知识可以重新完善（refine）模型，也会注入（inject）到模型自我的知识里，AI就可以实现自我提升（self-improving）的能力。

从这个角度看，o1如果能够自动地去做挖掘CoT，它真的就是一个新范式的开始。它不只是提取已有的知识，而是不断地产生新的知识，是一个知识增长的过程，是一个用算力去挖矿的过程，挖掘出新的知识。知识就会越来越多，AI就能做研究者能做到的很多事情。

OpenAI把所有大家问的问题、信息全部都存下来，然后再拿这部分东西训练模型，就可以把模型的能力进一步提升。相当于全世界的人用自己的钱、用他的算力去进行了知识的扩展，然后扩展出来的CoT结果，又可以使模型变得越来越强。如果从这个角度来说的话，确实是一种新的范式的开始。

“o1”打破了预训练的Scaling Law瓶颈，商业上解锁了新的可能

其实最近有不少公司，基本上觉得纯粹的基础模型的预训练意义已经不大了，因为（训练成本）基本上是十亿美金级了。

模型训练中有很多过程，比如有的在做规划，有的是一小节一小节在做CoT，有的是在做自我反思（self reflection）。这个过程到底是怎么实现，现在还不是特别清楚。如果就是说按照一个固定的流程，都按照下一个token的预测来做，那么CoT就是一个new data的问题了，但是颜水成判断这其中不只是一个new data的问题。

以前用GPT-4或者GPT-4o，虽然说能产生出不错的结果、能做不少事情，但是其实在直觉上会感觉，下一个token的预测，这个东西好像没有这个能力，或者应该不具备这种能力。所以这个条件下，我们会在GPT-4o的基础上，再搭一个agent，用agent去调用大模型、调用现成工具的形式。

虽然Agent有潜在可能性去解决这个问题，但是进展不是特别好，因为它还是没有一个比较完美的框架来解决问题，不像刚才提的Global Workspace的过程。后者是把信息全合在一起，在这个过程中去做演绎、去做推理、去做验证、去做自我反思。

但是现在有了o1就合理了，要得到最后结果，其中有一个思考过程，这个思考过程其实并不是原来常规的大模型，就直接能生成出来。有了这一套范式之后，你给我任何一个问题，我直觉上应该是能用这种方式解决的，无论是复杂推理还是其他，所以会有很多事情可以做。

另外，有了这套范式，那种超级大的模型有可能变得不是那么重要，模型可以做得比较小，但它就能做成一个，模型参数并不是特别大的一个网络架构，但它在推理的时候，能够做得更加复杂。

这种情况下，就不会像以前的Scaling Law一样，到了只有10万张H100，才能够真真正正的进入到第一梯队。你可能有几千张卡，就能在一些维度能做到非常好的效果。

原来的Scaling Law，可能在摧毁很多的创业公司，那么现在可能又会让一波的创业公司要重新的复活，去做各种各样的事情。所以无论是从可行性，还是创业的角度，我觉得机会都比以前要更好，没有进入到一个死胡同。

“o1”模型可以提升机器人大脑，但具身智能还有自己的卡点

同样，颜水成认为，o1模型对于机器人的能力未来会有很大提升。因为具身智能需要有比较强的推理能力，一次推理，或者一次CoT出来的结果可能并不能满足条件，所以它能自我反思或者自我验证非常重要。

例如行走的机器人去完成某些任务，如果它有“系统-2”的过程，输出会更加准确、更加可靠。同时在一些场景，其实让他先想一想，再去做交互，用户也是能接受的。

未来当“o1”拥有多模态能力，它用在具身智能场景会变得更好。但是还是有一些难点存在，强化学习本身的算法就比GPT-4的优化更难一些。比如强化学习的曲线的损失（loss），基本上一直在剧烈的震荡，但是像GPT模型，或者AI 1.0 时代的判别式模型，曲线基本上非常稳定，所以强化学习做起来的难度或者说要求的领域know-how更多。

中国本身做这块的人就蛮少，现在慢慢好一些，但是相比国外做的时间和积累还是要少一些。

如果Scaling Law玩不起，“o1”又是谁要下注的比赛？创业者的选择又会是什么？

“o1”其实让大家看到一个明确的方向，这是不是意味着大家要在这个方向上更深入地探索？

颜水成对此的态度稍微悲观一点，主要原因是有一些细节不像Sora出来的时候，从它的技术文档上你就能看得很清楚，它的路线是什么东西。

第二，还是类比Sora，当时Transformer，以及后面的DiT（一种文生视频架构）、扩散模型，是在开源的生态上往前走，创业公司只要去思考数据和工程的问题就可以。

但是这次强化学习，客观上来说，我觉得中国公司里，在大规模场景下，自己有代码库（code base）跑通的就很少，而且没有足够开源社区的支持。吸引人才其实也没有真正有一手经验的人。

之前在做GPT 3.5的时候，PPO就基本上有很大的收益。其实开源社区也在想办法去复现一些东西，但是并没有谁开源出一个真正意义的code base（代码库）能被中国公司直接使用。所以在RL上，门槛还是会比想象的要大一点。

基于这两个因素，一是没有大规模RL场景和好的code base做支撑，二是很多know-how的细节不清楚，可能会让追赶的速度会比较慢，会比我们追上GPT-4所需要的时间更长一些，哪怕是在美国，优秀的公司要追上的话，也可能是以年为单位。

那么在“o1”出来之后，创业要怎么回答“技术涨对我有利”这个问题？

颜水成给出的答案是“以产品先行”。昆仑万维做大模型的方式还是以产品先行，目前大概有五六个产品，比如说像AI搜索、AI音乐、AI陪伴、AI短剧创作和AI游戏，有这些具体的产品在前面做牵引，带动我们做基础模型的研发。有一些模型是通用的，有一些模型其实是垂域的，比如说音乐大模型就是垂域的。

他个人觉得，这一波“o1”出来之后，通用模型在原有的模型基础上，增加RL+CoT的方式，应该能把性能提升得更好，这肯定要做。

另外，可能更聚焦一些场景，比如精度优先会变得非常重要。举个例子，我们有一个产品是做AI for research，在天工APP里面。有了CoT技术，它就能够帮助研究者去思考，在他的研究方向上指明哪一些课题可以探索，而不是像以前只是给论文做总结、修改语法错误。