o1 改变了 Scaling 范式?Self-Play 还值得 All In 吗?

o1 改变了 Scaling 范式?Self-Play 还值得 All In 吗?
2024年09月14日 12:35 机器之心Pro

机器之心PRO · 会员通讯 Week 37

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. o1 改变了 Scaling 范式?Self-Play 还值得 All In 吗?

OpenAI 的 o1 模型有质的突破吗?Scaling Law 的范式要变了吗?Self-Play 在新范式中重要吗?传统 Self-Play 技术发展如何?Self-Play+LLM 已经能训出更强的模型了吗?...

2. 你的赛博朋友上线!更易变现、门槛更低的 AI 情感陪伴类应用好用在哪?

AI 情感陪伴类应用增长迅速,踩中了用户的哪些需求?头部的 AI 情感陪伴类的应用有哪些?它们都有哪些共性特征?为什么说 AI 情感陪伴类应用的「钱途」并不明朗?从技术角度看,AI 情感陪伴类应用有哪些缺陷还未解决?...

3. Businessinsider 最新评选:2024 年 44 家最有前途的 AI 创企

44 家最有前途的 AI 创企都有哪些?集中在哪些领域?这些公司的业务情况、商业模式、融资情况...如何?为什么投资人看好的是这些公司?...

...本期完整版通讯含 3 项专题解读 + 26 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 6 项,国外方面 11 项。

本期通讯总计 32593 字,可免费试读至 9% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读① o1 改变了 Scaling 范式?Self-Play 还值得 All In 吗?

日期:9 月 13 日

事件:OpenAI 新发布的 o1 模型在数学和理科推理能力上取得极大突破,其技术博客隐隐指出 Scaling Law 的范式正在转向推理,且这种 Scaling 形式与预训练有很大不同。这一说辞和「草莓」火热期间所引发的 Scaling 范式转向 self-play RL 的讨论既有交叉,也有差异。

o1 背后的技术和「草莓」传闻中一致吗?

1、当地时间 9 月 12 日,OpenAI 公开了新模型 o1 和 o1-mini,可以实现复杂推理,由一个通用模型解决此前专门训练的科学、代码和数学模型能做到的更难的问题。[15]

① 当前 OpenAI 在 ChatGPT 和 API 中发布的是 o1-preview 预览版。

② 作为早期模型,o1 尚不具备网页浏览和上传图片/文件等 ChatGPT 已有的功能。

2、根据 OpenAI 的技术博客,o1 的在数学和编程能力以及科学知识方面实现了大幅度的提升。[16]

① 编程能力上,o1 在 Codeforces 竞赛模拟中的表现超过了 93% 的竞争者,Elo 评分为 1807(GPT-4o 的 Elo 评级为 808 分)

② 数学能力上, o1 在 2024AIME 测试中,单次采后能答出 74%的问题(GPT4-o 仅答出 12%)。且 o1 在采样 1000 次并结合奖励模型加权投票后能解决 93% 问题,是全美学生前 500 名水平。

③ 在物理,化学和生物领域的专业知识方面,o1 在 GPQA Diamond 上的表现超过了博士学位水平的人类专家,也是首次有模型在该基准测试上超越人类专家。

3、技术博客介绍了 o1 的工作原理。有别于 GPT 系列,o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。

① o1 模型的特点是「三思而后行」。通过训练,o1 在响应用户之前会先产生一个很长的内部思维链,完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

② 这种思考能力使 o1 在面对复杂问题时,能够像人类一样进行长时间的思考和推理,从而得出更加准确和深入的答案。

4、OpenAI 团队表示,他们发现更多的强化学习(训练时计算)和更多的思考时间(测试时计算)能让 o1 的性能持续提高,且这种 Scaling 方法的限制与此前流行的预训练的限制有很大不同,他们仍在继续研究。

5、围绕 OpenAI 在技术博客中对测试时计算(test-time compute)的发现,许多声音指出 Scaline Law 的范式正在从 Training-Time 转向 Inference-Time

① 英伟达科学家 Jim Fan 表示,我们终于看到了 Inference-Time Scaling 范式在生产中的普及和部署。正如萨顿在「苦涩的一课」提到的「只有两种技术可以通过计算无限扩展:学习和搜索」。是时候将重点转移到后者了。[17]

② OpenAI 研究员、德扑 AI 之父 Noam Brown 在社交平台介绍了 o1,并表示 o1 经过强化学习训练,在响应前通过 CoT 思考的模式为 Scaling 开辟了一个新的维度,我们不再受预训练的瓶颈限制,而是可以在推理时间上做 scaling。[18]

6、然而,OpenAI 虽然在技术博客中分享了强化学习和 CoT 带来的帮助,但没有给出具体的细节。之前在草莓传言中有一种声音,强调了 self-play 是其中的关键。[19] [20] [21]

① 对于 Scaling 推理时间的所需的奖励函数、成功标准、代码解释器的调用以及计算成本等问题,OpenAI 在技术博客和 system card 中并没有分享细节。

② 在热点仍集中于「草莓」时,有媒体报道称草莓(和 Q*)的特点在于,它能够在向用户显示的响应过程中多次触发自我对话推理步骤(CoT)。与见过 Q* 输出的人交谈时,这种行为被描述为模型“自言自语”

③ 上述消息来自 Q* 的首次泄露时的消息,当时它是一种语言模型的自博弈(self-play),而对于几乎相同的语言模型来说,self-talk 和 self-play 之间的界限可以忽略不计。唯一的区别在于模型的提示方式。

④ 在此语境下,有观点认为预训练已经耗尽网络上的数据,用 self-play 自主探索选出更高质量的资料来学习才是长期更 scalable 的路径。

被带火的 Self-Play RL 当前发展如何?[22]

2024 年 8 月初,清华大学、北京大学、第四范式、腾讯和清华-伯克利深圳学院研究者于 arxiv 上传了 self-play 主题综述《A Survey on Self-play Methods in Reinforcement Learning》,梳理了 self-play 的技术背景和概念,现有的 self-play 算法、经典博弈场景和该技术的挑战与未来研究方向。

1、在背景介绍部分,该综述分别介绍了强化学习框架以及博弈论基本知识。

① 强化学习框架部分介绍了最普遍的形式,即部分可观察的马尔可夫博弈(partially observable Markov game, POMGs),也就是多智能体场景,且其中每个智能体无法完全获取环境的全部状态。

② 博弈论基本知识方面,该小节介绍了博弈的具体类型,如(非)完美信息博弈和(非)完全信息博弈、标准型博弈和扩展型博弈等;还介绍了博弈论框架重要概念,包括最佳回应和纳什均衡 (Nash equilibrium, NE)等。

③ 复杂的博弈场景分析通常采用更高层次的抽象。在这种高层次抽象下,复杂博弈场景可以看作是特殊的标准型博弈,策略集合由复杂策略组成。元策略则是对策略集合中的复杂策略进行概率分配的混合策略。

④该小节还介绍了常用的 self-play 评估指标,包括 Nash convergence(NASHCONV)、Elo、Glicko、Whole-History Rating(WHR) 和 TrueSkill。

2、综述提出了一个统一框架,并在此框架下将现有的 self-play 算法分为四类,从而进行系统的比较和分析。

3、第一类是传统 self-play 算法。这些算法从单一策略开始,通过让智能体(agent)反复与自己对战来改进策略,逐步扩展策略池,从而在没有外部输入的情况下探索各种策略并提高决策能力。

① 传统 self-play 算法在初始化策略池时使用占位符初始化,每次迭代中只选择一个无效策略进行训练,将其转化为有效策略;策略更新过程中,策略池的大小保持不变;不需要条件函数。

② 代表性的传统 self-play 算法有 Vanilla self-play,Fictitious self-play、δ-uniform self-play,Prioritized Fictitious Self-play 和 Independent RL。

4、第二类是 PSRO 算法(Policy Space Response Oracle, PSRO),这种算法通过引入新的预言机来扩展策略空间,这些预言机近似其他代理的当前元策略。

① PSRO 使用 EGTA 来更新元策略分布,从而在策略选择中引入探索性,以减少过拟合的风险。

② 相较于传统 self-play 算法,PSRO 算法会使用复杂的元策略求解器(MSS)。、

③ 代表性的 PSRO 算法有 Double Oracle (DO)、PSRO、α-PSRO、JPSRO、R-NaD 等。

5、第三类是基于持续训练的算法(Ongoing-training-based Series),这种算法不会逐步扩展策略池,而是通过在整个策略池上重复训练所有策略来增强所有策略,旨在在每个时期同时强化所有策略。

① 基于持续训练的算法在初始化策略池时使用实际初始化,每个策略在整个策略池中进行多次迭代训练;策略更新过程中,策略池的大小保持不变;不需要条件函数。

② 代表性的算法有 FTW、NeuPL 和 Simplex-NeuPL。

6、第四类是基于遗憾最小化的系列算法(Regret-minimization-based Series),这种算法侧重于随时间累积收益,而不是单个回合的表现。它们通常用于需要策略欺骗、隐藏和虚张声势的游戏,如德州扑克。

① 这类算法的每个策略在整个策略池中进行多次迭代训练;策略更新过程中,策略池的大小保持不变;需要存储每个信息集和潜在动作的反事实遗憾值。

② 代表性的算法有 Vanilla CFR、CFR+、CFR-D、RCFR 和 Deep CFR。

图:各类 self-play 算法比较与总结[22]
图:各类 self-play 算法比较与总结[22]

7、综述通过三类经典场景 介绍了 self-play 的经典应用,包括:棋类游戏,通常涉及完全信息;牌类游戏(包括麻将),通常涉及不完全信息;以及电子游戏,具有实时动作而非简单回合制游戏。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片