大型语言模型稳定强化学习的新路径：几何平均策略优化GMPO|训练_新浪科技

本文主要作者：赵毓钟，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为多模态学习、语言模型后训练。刘悦，中国科学院大学在读博士，微软亚洲研究院 MSRA 实习生，主要研究方向为视觉表征模型。

指导老师：万方，中国科学院大学计算机学院副教授，博导。叶齐祥，中国科学院大学电子学院教授，博导。崔磊，微软亚洲研究院通用人工智能组（GenAI）首席研究经理。韦福如，微软亚洲研究院通用人工智能组（GenAI）杰出科学家。

近年来，强化学习（RL）在大型语言模型（LLM）的微调过程中，尤其是在推理能力提升方面，取得了显著的成效。传统的强化学习方法，如近端策略优化（Proximal Policy Optimization，PPO）及其变种，包括组相对策略优化（Group Relative Policy Optimization，GRPO），在处理复杂推理任务时表现出了强大的潜力。然而，尽管它们在许多场景下都表现良好，仍然面临着在训练过程中不稳定的问题，尤其是在处理带有极端重要性加权奖励时。几何平均策略优化（Geometric-Mean Policy Optimization，GMPO），作为 GRPO 的稳定化版本，解决这一问题。本文将深入探讨 GMPO 的原理、优势，并通过理论分析和实验验证来展示其强大的效果。

论文标题：Geometric-Mean Policy Optimization
论文链接：https://arxiv.org/abs/2507.20673
开源代码: https://github.com/callsys/GMPO

图表 1 GMPO 和 GRPO 的对比。GRPO 优化算数平均奖励、而 GMPO 优化几何平均奖励（左）。在训练过程中，GRPO 经常出现极端重要性采样比率，更新不稳定，而 GMPO 有更稳定的重要性采样比率，更新更加稳定（右）。

GRPO 面临的挑战

组相对策略优化（GRPO）是强化学习在大型语言模型微调中的重要进展。GRPO 通过优化 token 级奖励的算术平均值来进行训练（忽略了剪切操作）：

然而算数平均对异常值十分敏感，在训练过程中容易产生极端的重要性采样比率（ps. 当前策略与旧策略分配给一个 token 的概率比）。在训练过程中，重要性采样比率（即当前策略与旧策略分配给一个标记的概率比）可能会大幅波动。这种波动导致策略更新不稳定。为了缓解这一问题，GRPO 引入了对重要性采样比率的剪切操作，但这种方法并未完全解决稳定性问题，并且还过度限制模型更新幅度使得模型探索能力变弱，进而影响了模型的泛化能力。

GMPO：GRPO 的稳定化版本

GMPO 通过优化几何平均来替代 GRPO 中的算术平均，解决了 GRPO 在训练过程中容易受到异常值影响的问题。几何平均本身对异常值更具鲁棒性，因为它会相对抑制极端值的影响，从而使训练过程更加稳定。GMPO 的训练目标可以表示为：

这种简单而有效的修改确保了 GMPO 在训练过程中能够更好地处理极端奖励，从而避免了 GRPO 中常见的不稳定情况。

通过将 PPO 中的 token 级裁切策略引入 GMPO，我们得到了 GMPO 的完整公式：

为了维持计算的稳定性，GMPO 中的连乘操作和裁切操作被放在 log 域执行。GMPO 的伪代码如下所示：

为了进一步理解为什么 GMPO 相比于 GRPO 更加稳定，我们推导并证明了 GMPO 在梯度层面上相对 GRPO 更加鲁棒：

可以看到，GRPO 每个 token 的梯度受到了它自身的重要性采样比率加权，容易受到极端值影响。GMPO 每个 token 的梯度则受到序列重要性采样比率的几何平均加权，不容易受到极端值影响。

图表 2 不同剪切范围和训练步骤下的重要性采样比率范围。范围越宽，表示策略更新越不稳定。与 GRPO（剪切范围为 (0.8, 1.2)）相比，GMPO 在剪切范围为 (e−0.4, e0.4) 的情况下表现出更大的稳定性。

除了算数平均向几何平均的变化，GMPO 还有两个关键设计：

1. 在 token 级别进行裁切。不同于 DeepSeek-Math，在 DeepSeek-R1 中，GRPO 被定义在了序列级。序列级重要性采样比率等效于 token 级重要性采样比率的连乘，DeepSeek-R1 对序列级重要性采样比率进行了裁切。GMPO 没有跟随 DeepSeek-R1 进行序列级别裁切，而是继续跟随 DeepSeek-Math 进行 token 级裁切。原因如下：

（1）与序列级别的剪切相比，词元级别的剪切更加稳定。如图 2 所示，序列级别剪切（GMPO-seqclip-(e−0.4,e0.4)）的采样范围大于词元级别剪切（GMPO (e−0.4,e0.4)），因此在优化过程中更容易产生极端梯度。

（2）序列级别的剪切相比 token 级别的剪切过于激进。一旦触发，它会将整个序列中所有 token 的梯度置为零，可能会丢失来自序列中有价值部分的梯度信号。

2. 更宽的裁切。正如 DAPO 所示，剪切操作可能限制探索并导致早期的确定性策略，从而妨碍扩展过程。为了在不牺牲稳定性的情况下促进探索，DAPO 采用了剪切上限策略，将剪切范围从 (0.8, 1.2) 轻微扩展至 (0.8, 1.28)。

如图 1 所示，我们可视化了 GRPO 和 GMPO 在每个训练步骤中的最大和最小重要性采样比率。关键观察结果如下：

（1）随着训练的进行，重要性采样比率的范围逐渐扩大，表明策略更新变得更为激进，稳定性降低。

（2）与 GRPO 相比，GMPO 保持了更稳定的采样比率范围，表明更新更加稳定。

（3）对于 GMPO，将剪切范围从 (e−0.2,e0.2) 扩展至 (−∞,+∞) 会增加策略更新的不稳定性。基于这些发现，我们通过将方程 4 中的剪切阈值 (ϵ1,ϵ2) 设置为 (e−0.4,e0.4) 来平衡训练稳定性与探索性。这个范围显著大于 GRPO 和 DAPO，能鼓励更大的探索，并提升性能。

GMPO 的优势

与 GRPO 相比，GMPO 在以下几个方面具有明显的优势：

1. 更稳定的策略更新：GMPO 的梯度更新更加稳定。

2. 更高的奖励：与 GRPO 相比，GMPO 在简单数据集 MATH Level 3-Level 5 上维持了相当的奖励。在更难的 DeepScaleR 和多模态数据集 Geometry3K 上有更高的奖励。

3. 减少过拟合的风险：相对于 GRPO，GMPO 自然地维持了和 RL 前模型的 KL 散度。通过保持较小的 KL 散度，GMPO 减少了过拟合的风险，有助于模型在更复杂的任务中取得更好的表现。

4. 更高的熵值：GMPO 在训练过程中能够保持更高的熵，支持更加持续的探索，避免了训练过程中的早期收敛。

实验验证：GMPO 与 GRPO 的对比

为了验证 GMPO 的有效性，我们在多个语言任务和多模态推理基准上进行了广泛的实验。实验结果表明，GMPO 在多个数据集上显著优于 GRPO，无论是在稳定性方面，还是在推理能力方面。

1. 语言任务：在语言推理任务中，GMPO 在五个数学推理基准上进行了测试，这些基准包含不同难度的数学问题，包括 AIME24、AMC、MATH500、Minerva 和 OlympiadBench。实验结果显示：

2. 多模态任务：在多模态推理任务中，GMPO 在 Geometry3K 基准上进行了测试，该任务涉及几何问题的解答。GMPO 相比 GRPO，在 Pass@1 准确率上提高了 1.4%，这表明 GMPO 在多模态任务中的应用潜力。

结论

Geometric-Mean Policy Optimization（GMPO）通过优化标记级奖励的几何平均值，成功克服了 GRPO 在训练过程中面临的不稳定性问题。与传统的算术平均方法相比，GMPO 的策略更新更加稳定，探索能力更强，同时减少了过拟合的风险。通过广泛的理论分析和实验验证，GMPO 在语言任务和多模态推理任务中都取得了显著的优势。

GMPO 的提出为未来强化学习在大型语言模型中的应用提供了一个更加可靠且可扩展的解决方案，为未来的研究奠定了坚实的基础。随着对 LLM 推理能力的不断提升，GMPO 无疑将在推动更高效、更稳定的强化学习系统方面发挥重要作用。