从 SEAL 自适应学习到 DFT 奖励矫正,LLM 泛化能力的实质提升又有多少?

从 SEAL 自适应学习到 DFT 奖励矫正,LLM 泛化能力的实质提升又有多少?
2025年09月07日 09:30 机器之心Pro

机器之心PRO · 会员通讯 Week 36

--- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ---

1. 从 SEAL 自适应学习到 DFT 奖励矫正,LLM 泛化能力的实质提升又有多少?

CoT 推理在分布外测试下为何性能急剧下降,其本质是逻辑推理还是训练模式记忆?上下文学习(ICL)相比传统微调(SFT),在提升泛化能力上有哪些显著优势?动态微调(DFT)是如何纠正 SFT 隐含的反向奖励机制,从而提高模型的泛化能力?...

2. 想要「版本」超车,Agent 需要怎样的「Environment」?

Agent Environment 是什么?现代 Agent 的 Environment 对 Infra 有哪些需求?Sandbox 之外,还有哪些工具属于 Agent 的 Environment?非共识下的 Agent Environment 有哪些热门创业项目?...

3. GenAI 鸿沟挡路,什么才是企业投资 AI 的正确打开方式?

为何 95% 的企业对AI的投资无法获得可衡量的财务收益?什么是GenAI 鸿沟?为什么跨不过 GenAI 鸿沟就会死?如何理解 GenAI 鸿沟下的「影子经」?大部分企业的 AI 战略只是面子工程?成功的 AI 供应商和采购方有什么共性?企业应如何为「智能体网络」的未来做好准备?...

本期完整版通讯含 3 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递,其中技术方面 10 项,国内方面 6 项,国外方面 11 项。

本期通讯总计 24736 字,可免费试读至 7% 

 消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元) 

要事解读① 从 SEAL 自适应学习到 DFT 奖励矫正,LLM 泛化能力的实质提升又有多少?

引言:随着 LLM 在各类任务中被广泛应用,其泛化能力的局限逐渐显现。业内目前出现了一系列策略尝试改善这一问题,包括自适应微调、动态梯度调整和数据增强等。此类研究不仅揭示了泛化的边界,也为大模型在复杂场景下的稳健应用提供了新的路径。

模型记忆撑场面,泛化能力究竟如何?

1、在人工智能的语境里,泛化常被用来形容模型「举一反三、触类旁通」的能力。它意味着模型不仅能在训练过的数据上表现优异,还能在陌生场景下展现出解决问题的灵活性。[1-1]

2、与「死记硬背」式的记忆不同,真正的泛化要求模型能从有限的样本中抽取出普适的规律,并迁移到新的任务之中。[1-2]

① 换句话说,泛化不是检索既有答案,而是能把旧知识转化为应对新情况的工具。这也是机器学习自诞生以来最核心的目标之一。

3、然而随着大模型的复杂度和训练规模不断的扩张,业内人士频繁提出质疑,即目前我们所见的「泛化」,到底是抽象的理解,还是海量数据记忆的另一种「伪装」?

4、去年 7 月,来自加州大学圣塔芭芭拉分校的研究者就通过对比不同规模模型的表现,观察到同样的参数规模扩展机制下,推理任务的泛化能力有所提升,知识任务的记忆则得到了加强。[1-3]

① 在 GSM8K、MMLU-reasoning 等推理任务上,模型参数量从 13M 增至 12B 后,输出与预训练里曾共现的局部短语片段相关性(Spearman ρ)显著下降,同时生成了更多从未一起出现过的全新短语组合,表明规模放大逐步激活。

② 而在知识密集型任务(如 TriviaQA、MMLU-knowledge)上,模型表现与预训练语料中短语共现频率高度相关(Spearman ρ>0.35 且随规模增大而上升),一旦对这些共现片段进行去重或扰动,准确率显著下降,说明规模放大主要增强了对事实性知识的记忆能力。

5、今年 8 月,来自亚利桑那州立大学的研究者指出,CoT 的推理表现本质上是「脆弱的幻象」。一旦测试超出训练分布,性能便急剧崩溃。这意味着 CoT 的优势更多来自对训练模式的记忆与插值,而不是真正可泛化的逻辑推理。[1-4][1-5]

6、甚至有学者提出了更激进的观点。ReflectionAI 的 CEO Misha Laskin 认为,「不存在所谓的泛化,只存在将测试分布纳入训练分布」。用户所体验到的「泛化」,很可能是因为模型的训练数据已经足够厂泛,覆盖了测试场景。」[1-6]

① Misha Laskin 在耶鲁大学获得学士学位,在芝加哥大学获得理论物理学博士学位,并在加州大学伯克利分校 BAIR 实验室进行 AI 领域的博士后研究,主要研究方向为深度强化学习和无监督学习。[1-7]

② 他在 2022 年加入 DeepMind 担任研究科学家,负责谷歌关键 LLM 项目 Gemini 的 RLHF 和奖励模型团队,并见证了初代 Gemini 和 Gemini 1.5 的诞生。[1-7]

7、这两年除了以上泛化「定义之争」的相关研究之外,针对如何提升泛化能力的问题也引发了业内的广泛关注,这与研究热度的爆发式增长紧密相关。

① 有论文统计显示,2022 年至 2025 年间,LLM 的相关研究在 ACL 上增长了近 6 倍,在 arXiv 上增长了近 15 倍。在 LLM 现存的局限性上,reasoning 仍然是被研究最多的主题,其次是泛化、幻觉、偏见和安全性。[1-8]

技术升级层出不穷,泛化能力实质的提升又有多少?

1、早期的泛化研究主要关注数据分布与模型规模对泛化的影响,而近期的工作更多地从训练策略、模型更新机制和数据设计等方面来寻求突破。

AI
新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片