RLHF 家族的奇巧魔改：On Policy 与 Off Policy 路线大PK

随着 [Llama3] 的开源，Alignment 的重要性日益凸显，而作为 Alignment 中坚力量的 RLHF 家族也愈发繁荣。今天，我们就来一起探索一下 RLHF 领域中那些令人拍案叫绝的魔改思路吧！

On Policy vs. Off Policy：究竟谁更胜一筹？

在 LLM 领域，RLHF 主要分为两大路线：

On Policy 路线: 以 [PPO] 为代表，需要 LLM 在训练过程中实时生成文本。
Off Policy 路线: 以 [DPO] 为代表，不需要 LLM 在训练过程中实时生成文本，而是利用已有的数据进行学习。

On Policy 方法通常需要更大的算力支持，训练时间也更长，但理论上具有更高的效果上限。

On Policy：让模型亲自上阵

On Policy 方法强调让模型在训练过程中「亲力亲为」，根据自身生成结果的好坏来学习改进。

举个例子，想象一下你正在学习玩王者荣耀：

On Policy: 你亲自上阵，旁边有一位教练实时指导你的操作，当你成功推塔时给予鼓励，当你失误被杀时及时提醒。
Off Policy: 你观看大量职业选手和青铜玩家的对局视频，学习前者的优秀操作，避免后者的低级失误。

On Policy 方法的优势在于训练数据与模型能力完全匹配，因为所有数据都是由当前模型生成的。

Off Policy：站在巨人的肩膀上学习

Off Policy 方法则侧重于利用已有数据进行学习，模型不需要亲自生成答案，因此训练速度更快，对算力要求更低。

然而，Off Policy 方法的效果很大程度上取决于训练数据的质量和与模型能力的匹配程度。如果数据质量不高，或者与模型能力相差太远，那么训练效果就会大打折扣。

1. On Policy 路线：PPO 及其优化

1.1 ReMax：丢掉 Critic，轻装上阵

[ReMax] 提出了一种大胆的想法：丢弃 PPO 中的 Critic 网络，让 Actor 直接与 Reward Model 对齐。

这样做的好处显而易见：

减少模型参数: 从 4 个模型减少到 3 个，参数量大幅降低。
加速训练: 不再需要更新 Critic 网络，反向传播速度更快。

ReMax 的核心在于使用「当前策略」认为最好的行为来作为 baseline，从而在没有 Critic 的情况下降低方差，稳定训练。

1.2 GRPO：暴力求均值，效果依旧惊艳

[DeepSpeek-v2] 中提出的 [GRPO] 算法则采取了另一种思路：保留 PPO 中 importance sampling 和 clip 等先进机制，但使用暴力采样求均值的方式来代替 Critic 网络。

GRPO 的优势在于：

简化模型结构: 无需 Critic 网络，降低了模型复杂度。
保留 PPO 优势: 保留了 PPO 中的优秀机制，保证了训练效果。

1.3 其他 On Policy 优化方向

除了 ReMax 和 GRPO 之外，研究人员还探索了其他优化 PPO 算法的方向，例如：

分布式 PPO: 将训练任务分配到多个 GPU 或 TPU 上，加快训练速度。
基于 Transformer 的 PPO: 利用 Transformer 模型强大的表征能力，提升策略网络的性能。

2. Off Policy 路线：DPO 及其改进

2.1 DPO：最大化概率差，简单高效

[DPO] 算法的思路非常直观：对于同一个 prompt，通过降低「坏答案」的采样概率，提升「好答案」的采样概率，从而训练模型。

DPO 的优势在于：

训练高效: 无需模型生成文本，训练速度快。
数据利用率高: 可以充分利用已有的 pair 数据。

2.2 DPOP：添加正则项，防止模型「训崩」

DPO 算法存在一个问题：在某些情况下，」好答案」和「坏答案」的采样概率会同时降低，导致模型效果不佳。

为了解决这个问题，[DPOP] 算法在 DPO loss 的基础上加入了一个正则项，旨在：

当模型对「好答案」拟合不足时，鼓励模型更多地学习「好答案」。
当模型对「好答案」拟合较好时，着重降低「坏答案」的采样概率。

2.3 TDPO：引入 KL 惩罚，平衡效率与多样性

与 PPO 类似，[TDPO] 算法也在 DPO 的 loss 函数中引入了 KL 惩罚项，用于限制模型更新幅度，防止过拟合。

与 PPO 不同的是，TDPO 使用的是 forward KL，而不是 backward KL。这样做的好处是：

输出多样性更高: forward KL 鼓励模型覆盖更广泛的概率分布，从而生成更多样化的文本。

2.4 ORPO：抛弃参考模型，化繁为简

[ORPO] 算法则更进一步，试图连 reference model 也一并省去。

ORPO 的 loss 函数由两部分组成：

SFT Loss: 保证模型对 chosen response 的基本拟合。
Odds Ratio Loss: 通过最大化「好答案」与「坏答案」的 odds 值之比，来提升模型对「好答案」的偏好。

结语

无论是 On Policy 还是 Off Policy，RLHF 家族的「魔改」之路都充满了奇思妙想。相信随着研究的深入，RLHF 技术将会在 Alignment 领域发挥越来越重要的作用。