AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显著,标志着向更加人性化 AI 迈出的关键一步。
尽管 RLHF 取得了巨大成功,但是在训练过程中 RLHF 非常消耗资源。因此,近段时间学者们在 RLHF 奠定的坚实基础上,继续探索更为简单且高效的策略优化路径,催生了直接偏好优化(DPO)的诞生。DPO 通过数学推理得到奖励函数与最优策略之间的直接映射,消除了奖励模型的训练过程,直接在偏好数据上优化策略模型,实现了从「反馈到策略」的直观飞跃。这不仅减少了复杂度,还增强了算法的稳健性,迅速成为业界的新宠。
然而,DPO 主要关注在逆 KL 散度约束下的策略优化。由于逆 KL 散度的 mode-seeking 特性,DPO 在提升对齐性能方面表现出色,但是这一特性也倾向于在生成过程中减少多样性,可能限制模型的能力。另一方面,尽管 DPO 从句子级的角度控制 KL 散度,模型的生成过程本质上是逐个 token 进行的。从句子级控制 KL 散度直观上表明 DPO 在细粒度控制上存在限制,对 KL 散度的调节能力较弱,可能是 DPO 训练过程中 LLM 的生成多样性迅速下降的关键因素之一。
为此,来自中科院和伦敦大学学院的汪军与张海峰团队提出了一种从 token-level 角度建模的大模型对齐算法:TDPO。
![](http://n.sinaimg.cn/spider20240623/549/w866h483/20240623/5d94-da6dd07e0a973ee478a020917076f516.png)
论文标题:Token-level Direct Preference Optimization
论文地址:https://arxiv.org/abs/2404.11999
代码地址:https://github.com/Vance0124/Token-level-Direct-Preference-Optimization
为了应对模型生成多样性显著下降的问题,TDPO 从 token-level 的角度重新定义了整个对齐流程的目标函数,并通过将 Bradley-Terry 模型转换为优势函数的形式,使得整个对齐流程能最终从 Token-level 层面进行分析和优化。相比于 DPO 而言,TDPO 的主要贡献如下:
Token-level 的建模方式:TDPO 从 Token-level 的角度对问题进行了建模,对 RLHF 进行了更精细的分析;
细粒度 KL 散度约束:在每个 token 处从理论上引入了前向 KL 散度约束,使方法能够更好地约束模型优化;
性能优势明显:相比于 DPO 而言,TDPO 能够实现更好的对齐性能和生成多样性的帕累托前沿。
DPO 与 TDPO 的主要区别如下图所示:
![图 1:DPO 的对齐优化方式。DPO 从 sentence-level 的角度进行建模](http://n.sinaimg.cn/spider20240623/749/w1080h469/20240623/d9c6-8d59a9a69e7c69a56da9a78c6c472ddd.png)
![](http://n.sinaimg.cn/spider20240623/23/w1080h543/20240623/c972-e77aacc8754ef742e5977c296a857b2f.png)
图 2:TDPO 的对齐优化方式。TDPO 从 token-level 的角度进行建模,并在每个 token 处引入了额外的前向 KL 散度约束,如图中红色部分所示,控制模型偏移程度的同时,充当了模型对齐的 baseline
下面介绍两者方法的具体推导过程。
背景:直接偏好优化(DPO)
DPO 通过数学推导,得到了奖励函数与最优策略之间的直接映射,消除了 RLHF 过程中的奖励建模阶段:
![](http://n.sinaimg.cn/spider20240623/280/w916h164/20240623/9a2a-9edad3661a2e2b3bdde738a54d3953f4.png)
将公式 (1) 代入 Bradley-Terry (BT) 偏好模型中,得到直接策略优化(DPO)损失函数:
![](http://n.sinaimg.cn/spider20240623/466/w854h412/20240623/62d7-7055cec66944277d3cf5c13b0f4402d2.png)
其中是由来自偏好数据集 D 的 prompt、获胜响应和失败响应构成的偏好对。
TDPO
符号标注
为了建模语言模型顺序的、自回归的生成过程,TDPO 将生成回复表示成 T 个 token 组成的形式
表示字母表(词汇表)。
当将文本生成建模为马尔可夫决策过程时,状态 state 定义为 prompt 和到当前 step 为止已生成的 token 的组合,表示为,而动作 action 则对应于下一个生成的 token,表示为
,token级奖励定义为
![](http://n.sinaimg.cn/spider20240623/48/w768h80/20240623/3760-6d59203539709f7e6fcc19432cfc672e.png)
基于以上提供的定义,TDPO 为策略建立了状态 - 动作函数
、状态值函数和优势函数:
![](http://n.sinaimg.cn/spider20240623/563/w1080h283/20240623/9860-7346da912b205144589391a403289a27.png)
其中,表示折扣因子。
Token-level 角度的人类反馈强化学习
TDPO 理论上修改了 RLHF 的奖励建模阶段和 RL 微调阶段,将它们扩展为了从 token-level 角度考虑的优化目标。
对于奖励建模阶段, TDPO 建立了 Bradley-Terry 模型和优势函数之间的相关性:
![](http://n.sinaimg.cn/spider20240623/438/w780h458/20240623/0cad-000d7935a5082d636dc85e82e95ece56.png)
对于 RL 微调阶段,TDPO 定义了以下目标函数:
![](http://n.sinaimg.cn/spider20240623/527/w1080h247/20240623/d22b-4e4f43f44336dbd2e29160aab8585315.png)
推导
从目标 (4) 出发,TDPO 在每个 token 上推导了最优策略和状态 - 动作函数
之间的映射关系:
![](http://n.sinaimg.cn/spider20240623/346/w784h362/20240623/6800-2e8b9c4bd91c8010626d269d09020955.png)
其中,
将方程 (5) 代入方程 (3),我们得到:
![](http://n.sinaimg.cn/spider20240623/354/w1080h74/20240623/bc76-271efd6b669c1c375ccf63497a638f2d.png)
其中,
和参考模型
表示的隐式奖励函数差异,表示为
![](http://n.sinaimg.cn/spider20240623/422/w1080h142/20240623/9774-96cb8f77e51b74e24f70581cfbee1e7e.png)
而
和
![](http://n.sinaimg.cn/spider20240623/220/w152h68/20240623/0cd0-2e4600a3f0d2de0cb0c1c9634652beb8.png)
的序列级前向KL散度差异,按
加权,表示为
![](http://n.sinaimg.cn/spider20240623/581/w1080h301/20240623/bbde-dfab3b245b9d3b273583be7eb42f95d0.png)
基于方程 (8),TDPO 最大似然损失函数可以建模为:
![](http://n.sinaimg.cn/spider20240623/342/w842h300/20240623/f919-cf5aa92704a8fe4457069124bcb6fe16.png)
考虑到在实际中,
,放大
和
之间的差异,TDPO提出修改方程(9)为:
![](http://n.sinaimg.cn/spider20240623/338/w828h310/20240623/350c-ebbcc073175ab5f878239733926ccf79.png)
其中是一个超参数,而
![](http://n.sinaimg.cn/spider20240623/512/w1028h284/20240623/486a-d18a5f89e981476c49a89a8b4bc93fde.png)
这里,
我们将 TDPO 和 DPO 的损失函数总结如下:
![](http://n.sinaimg.cn/spider20240623/25/w905h720/20240623/6479-d527eb09cf87ba4468ddbe26fe7047aa.png)
由此可见,TDPO 在每个 token 处引入了这种前向 KL 散度控制,使得在优化过程中能够更好地控制 KL 的变化,而不影响对齐性能,从而实现了更优的帕累托前沿。
实验设置
TDPO 在 IMDb,Anthropic/hh-rlhf、MT-Bench 上个数据集上进行了实验。
IMDb
在 IMDb 数据集上,该团队采用了 GPT-2 作为基模型,然后用 siebert/sentiment-roberta-large-english 作为奖励模型评估策略模型输出,实验结果如图 3 所示。
![](http://n.sinaimg.cn/spider20240623/7/w887h720/20240623/fb52-3e35c0ec2f8ed6b41ecd2b3dff5a5d57.png)
从图 3 (a) 中可以看出,TDPO (TDPO1,TDPO2) 能够达到比 DPO 更好的 reward-KL 的帕累托前沿,而从图 3 (b)-(d) 则可以看出,TDPO 在 KL 散度控制方面表现极为出色,远远优于 DPO 算法的 KL 散度控制能力。
Anthropic HH
而在 Anthropic/hh-rlhf 数据集上,该团队采用了 Pythia 2.8B 作为基模型,采用两种方式评估模型生成的好坏:1)使用已有的指标;2)使用 GPT-4 评测。
对于第一种评估方式,该团队评测了不同算法训练的模型在对齐性能 (Accuracy) 和生成多样性 (Entropy) 上的权衡,如表 1 所示。
![](http://n.sinaimg.cn/spider20240623/78/w1080h598/20240623/b191-a2d16e0540f1bd9ef2dea24892b85bc8.png)
可以看到 TDPO 算法不仅在对齐性能 (Accuracy) 上优于 DPO 和 f-DPO,在生成多样性 (Entropy) 上也占据优势,在这两个大模型生成回复的关键指标上达到了更好的权衡。
而对于第二种评估方式,该团队评测了不同算法训练的模型和人类偏好的吻合度,与数据集中的获胜响应作对比,如图 4 所示。
![](http://n.sinaimg.cn/spider20240623/150/w1030h720/20240623/c298-5c581c85ebcbe8d111511e955c2ae98d.png)
DPO、TDPO1 和 TDPO2 算法在温度系数为 0.75 的情况下均能够达到对获胜响应的胜率高于 50%,较好地符合人类偏好。
MT-Bench
在论文中的最后一个实验上,该团队采用了在 Anthropic HH 数据集上训练好的 Pythia 2.8B 模型直接用于 MT-Bench 数据集评测,结果如图 5 所示。
![](http://n.sinaimg.cn/spider20240623/25/w905h720/20240623/2280-39f7bb08d6c32324eb5c8ff6040d2607.png)
在 MT-Bench 上,TDPO 能够达到比其他算法更高的获胜概率,这充分说明了 TDPO 算法训练的模型生成的响应的质量更高。
此外,有相关研究对 DPO、TDPO、SimPO 算法进行了对比,可参考链接:https://www.zhihu.com/question/651021172/answer/3513696851
基于 eurus 提供的 eval 脚本,评测了基模型 qwen-4b、mistral-0.1、deepseek-math-base 基于不同的对齐算法 DPO、TDPO、SimPO 微调训练得到的性能,以下是实验的实验结果:
![表格 2:DPO,TDPO,SimPO 算法性能对比](http://n.sinaimg.cn/spider20240623/662/w1080h382/20240623/b620-3e3b1f22d7a6e5c79c1b08b17824fd1c.png)
了解更多结果,请参考原论文。
![© THE END](http://n.sinaimg.cn/spider20240623/386/w1080h1706/20240623/0100-c309f280abf0edfa242afcc021a60fe1.jpg)
![新浪科技公众号 新浪科技公众号](http://n.sinaimg.cn/tech/content/tech_qr2x.png)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
![](http://n.sinaimg.cn/tech/content/tech_weixin2.png)