「压缩即智能」,成就LLM的Transformer 未必是终极解?

「压缩即智能」,成就LLM的Transformer 未必是终极解?
2024年11月10日 11:45 机器之心Pro

机器之心PRO · 会员通讯 Week 45

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. LLM 验证了「压缩即智能」,但 Transfomer 未必长青?

LLM是否能验证知识压缩理论? GPT之后,大模型将向哪个方向演进? 有哪些质疑的声音? ....

2. 控制器 HOVER、模型π0...实现通用机器人控制的最终形态会是什么?

「通用机器人控制器」是什么概念?实现机器人通用控制的价值是什么?关于通用机器人控制,近期有哪些工作值得关注?在技术路径上有何不同?为何近期推出的通用机器人控制模型的参数都不大?做机器人通用控制,小模型可能效果更好?...

3. WEKA 深度报告:从 1500+ 从业者看法剖析 2024 AI 趋势

企业中最流行哪种 AI?企业更希望把预算投在哪些 AI 技术?为什么AI难以规模化部署?企业部署 AI有什么难点?....

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 8 项,国外方面 11 项。

本期通讯总计 22164 字,可免费试读至 10% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读① 「压缩即智能」,成就LLM的 Transformer 未必是终极解?

引言:在人工智能发展的浪潮中,神经网络、专家系统、决策树和遗传算法等技术先后经历过兴盛、被冷藏,而后复兴的循环。自大模型热潮兴起,大多 LLM 均采用 Transformer 结构,基于预训练的 LLM 范式也是最主流的做法。然而,随着 OpenAI o1 模型、Sutton 的 Dynamic DL 范式和 Mamba、RWKV 等工作的出现,下一代 LLM 的范式可能和当前路线会有很大不同。

LLM 是「压缩即智能」的有效验证,但未必是最优的选择?

Ilya Sutskever 2023 年向黄仁勋描述的「AI 预测下一个单词可以实现真正的理解」的理念在一系列 LLM 进展中被验证,其带来的「压缩即智能」的观点进而得到了大量关注和认可。GPT 的训练过程被描述为对知识的无损压缩,但当前最流行的 Transfomer 架构却未必是这一路径下的最优选择。

1、以 ChatGPT 为代表的 LLMs 在近期取得的突破验证了 Ilya 在描述的「预测下一个 token 就是在理解世界」,也验证了知识压缩理论在 LLM 中的有效性。

① Ilya 在 2023 年 3 月 GTC 大会和黄仁勋的对谈中表示,ChatGPT 在学习预测下一个词时,实际上理解了文本背后的现实世界过程和情感等信息,形成了「世界模型」,预训练则提高了模型对复杂过程的理解。

② 同样在 2023 年的 2 月和 8 月,Open AI 核心研究员 Jack Rae 和尚未离开 OpenAI 的 Ilya 分别在演讲中从不同的角度讨论了为什么他们认为压缩就是智能,而 GPT 预测下个 token 等同于无损压缩,因此具备最强的智能。

2、根据 Ilya 和 Jack Rae 的演讲,(AGI)的追求在于更强的泛化能力,而泛化能力越强,智能水平越高。压缩在这里被视作一种对数据的无损处理,即在不丢失任何信息的前提下,减少数据所需的存储空间。[8]

① 对于数据集的最佳无损压缩,实际上是找到了一种方式,能够以最简洁的形式表达数据集中的所有信息,这种方式能够很好地泛化到新的、未见过的数据上。

② 从另一种角度描述,如果一个模型能够无损地压缩一个数据集,那么它很可能也能很好地处理该数据集之外的数据,因为它已经学会了数据中的通用规律和模式。

③ GPT 之所以被认为是最好的无损压缩器,是因为它能够在无监督学习的环境下,高效地处理和整合多样化的数据,提取公用部分,并实现复杂的映射关系,从而在表征空间中达到最优的压缩效果。

3、在 GPT 获得成功后,Transformer 成为了当前 LLM 领域最为流行的架构。但伴随围绕 Transformer 的研究逐步发展,其局限也不断被发掘,进而引发一系列工作对基于 Transformer 的 LLM 范式提出挑战。

LLM 范式变革已经出现多个征兆了?

Scaling Law 让 OpenAI 取得了模型能力上的绝对优势,也引发了国内外团队尝试在预训练环节投入越来越多的计算资源和海量数据。然而,在模型越做越大,越做越贵的趋势下,包括 OpenAI 在内的多个团队均在尝试改进这种高成本的 LLM 范式。其中,谷歌 DeepMind 团队的「Scaling LLM Test-Time Compute」和 OpenAI 在 o1 发布时介绍的尝试均映射出 LLM 的训练范式正在隐隐从预训练转向推理;而深度学习先驱深度学习先驱 Richard S。Sutton 的工作则在 Dynamic Deep Learning 的远期愿景下,解锁更适应持续学习环境的训练范式,规避现有大模型训练的高成本和灾难性遗忘等局限。

1、谷歌 DeepMind 和 UC 伯克利的研究者在 2024 年 8 月的「Scaling LLM Test-Time Compute」论文中探究了如何通过增加测试时(Test-Time)的计算量来提高 LLMs 的性能,发现这种方法在部分情况下比单纯扩展模型参数更加有效。(详见 Pro 会员通讯 Week36 期)

2、「Scaling LLM Test-Time Compute」的核心思路在于,假设通过在测试时(test-time)投入额外的计算资源,即 Scaling test-time compute,LLM 在理论上应该能做到比训练时更好的表现。

① 如果预训练模型的大小可以与推理期间的额外计算资源交换,那么规模较小的模型将有希望替代原本需要部署在数据中心的大规模 LLM。

② 如果使用额外的推理时间计算资源来自动化改进模型输出的质量,也可以作为算法优化中减少依赖人类监督的路径。

3、该工作探讨了两种主要机制来扩展测试时的计算:一种是针对基于过程的密集验证器奖励模型(PRM)进行搜索,另一种是在测试时根据 prompt 自适应地更新模型的响应分布。

① 通过对这两种策略的研究,研究者发现不同方法的有效性高度依赖于 prompt 的难度,并提出了「计算最优」扩展策略,根据 prompt 难度自适应地分配测试时的计算资源。

② 实验发现,将额外计算资源投入测试时计算在大多问题上具有较高性价比,但对最难的问题仍是预训练计算取得的进展更有效。

4、「 Scaling LLM Test-Time Compute」发布于 OpenAI 推出 o1 模型(9 月)前夕。彼时,人们对仍是「草莓」的 o1 有着许多猜测,而谷歌 DeepMind 这项工作的历年传闻中草莓会在「回答前思考」的特征。在 o1 发布后,其「 RL Scaling」的新方向则进一步引发了业界对 LLM 训练范式转移的热议。(详见 Pro 会员通讯 Week37 期)

① o1 模型的特点是「三思而后行」。通过训练,o1 在响应用户之前会先产生一个很长的内部思维链,完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

② 这种思考能力使 o1 在面对复杂问题时,能够像人类一样进行长时间的思考和推理,从而得出更加准确和深入的答案。

5、OpenAI 在 o1 技术报告称更多的强化学习(训练时计算)和更多的思考时间(测试时计算)能让 o1 的性能持续提高,且这种 Scaling 方法的限制与此前流行的预训练的限制有很大不同。

① 围绕 OpenAI 在技术博客中对测试时计算(test-time compute)的发现,许多声音指出 Scaline Law 的范式正在从 Training-Time 转向 Inference-Time。

6、北大对齐团队撰文解读了o1在技术上的细节,并指出o1象征着「Post-Training Scaling Laws」已经出现,并为该路径提供了有理的支持。

① Post-Training Scaling Laws代表的是预训练阶段参数Scaling Up带来的边际收益开始递减,而后训练阶段的强化学习训练和推理阶段思考计算量的增大则能够显著提升模型性能。

② o1模型可能使用了类似于AlphaGo中的MCTS和RL方法,通过搜索找到正确的答案路径。强化学习在o1中的作用是诱导合理推理过程的产生,而不是直接搜索过程和最终答案。

AI智能机器人
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片