借一步网
作者:
在
强化学习(Reinforcement Learning, RL)近年来在大规模语言模型(LLM)优化中扮演了重要角色。然而,传统的强化学习方法如 Proximal Policy Optimization (PPO) 在大规模模型训练中面临显著的计算瓶颈和复杂性挑战。为了解决这些问题,DeepSeek-AI 团队提出了一种高效且创新的强化学习算法——Group Relative Policy Optimization (GRPO)。GRPO 不仅显著降低了训练资源需求,还在数学推理任务中展现了卓越的性能提升。本文将聚焦 GRPO 的核心设计与实现,深入剖析其算法细节与技术创新。
PPO 是当前 LLM 强化学习中的主流方法,其目标是通过限制策略更新的幅度,确保训练的稳定性。PPO 的优化目标如下:$$J_{\text{PPO}}(\theta) = \mathbb{E}\left[\sum_{t=1}^{|o|} \min\left(\frac{\pi_\theta(o_t | q, o_{<t})}{\pi_\theta^{\text{old}}(o_t | q, o_{<t})} A_t, \text{clip}\left(\frac{\pi_\theta(o_t | q, o_{<t})}{\pi_\theta^{\text{old}}(o_t | q, o_{<t})}, 1-\epsilon, 1+\epsilon\right) A_t\right)\right]$$其中:
尽管 PPO 在稳定性上表现优异,但其在大规模模型训练中的局限性不容忽视:
为了解决上述问题,GRPO 的设计目标是:
GRPO 的核心思想是通过组内相对奖励(Group Relative Reward)优化策略模型,避免了传统 PPO 对价值函数的依赖。以下是 GRPO 的完整实现细节。
在 GRPO 中,每个问题 $q$ 的奖励信号来源于组内多个输出的相对比较。具体步骤如下:
GRPO 的优化目标函数如下:$$J_{\text{GRPO}}(\theta) = \mathbb{E}\left[\frac{1}{G} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \min\left(\frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_\theta^{\text{old}}(o_{i,t} | q, o_{i,<t})} A_{i,t}, \text{clip}\left(\frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_\theta^{\text{old}}(o_{i,t} | q, o_{i,<t})}, 1-\epsilon, 1+\epsilon\right) A_{i,t}\right)\right]$$其中:
为了进一步稳定训练过程,GRPO 在目标函数中加入了 KL 散度正则化项:$$D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) = \sum_{o_i} \pi_\theta(o_i | q) \log\left(\frac{\pi_\theta(o_i | q)}{\pi_{\text{ref}}(o_i | q)}\right)$$其中,$\pi_{\text{ref}}$ 是参考策略模型(通常是初始的 SFT 模型)。
最终的优化目标为:$$J_{\text{GRPO}}(\theta) = J_{\text{GRPO}}(\theta) – \beta D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}})$$其中,$\beta$ 是 KL 正则化项的权重。
以下是 GRPO 的完整训练流程:
在数学推理任务中,GRPO 展现了显著的性能提升。以下是基于 GRPO 的实验结果:
GRPO 的提出为大规模语言模型的强化学习开辟了一条新路径。通过组内相对奖励的创新设计,GRPO 在显著降低计算成本的同时,实现了卓越的性能提升。这一算法不仅为数学推理任务设立了新的标杆,也为强化学习在语言模型中的应用提供了重要启示。未来,随着算法的进一步优化与扩展,GRPO 有望在更多领域展现其潜力。
要发表评论,您必须先登录。
强化学习(Reinforcement Learning, RL)近年来在大规模语言模型(LLM)优化中扮演了重要角色。然而,传统的强化学习方法如 Proximal Policy Optimization (PPO) 在大规模模型训练中面临显著的计算瓶颈和复杂性挑战。为了解决这些问题,DeepSeek-AI 团队提出了一种高效且创新的强化学习算法——Group Relative Policy Optimization (GRPO)。GRPO 不仅显著降低了训练资源需求,还在数学推理任务中展现了卓越的性能提升。本文将聚焦 GRPO 的核心设计与实现,深入剖析其算法细节与技术创新。
背景与挑战:为什么需要 GRPO?
1. PPO 的局限性
PPO 是当前 LLM 强化学习中的主流方法,其目标是通过限制策略更新的幅度,确保训练的稳定性。PPO 的优化目标如下:
$$J_{\text{PPO}}(\theta) = \mathbb{E}\left[\sum_{t=1}^{|o|} \min\left(\frac{\pi_\theta(o_t | q, o_{<t})}{\pi_\theta^{\text{old}}(o_t | q, o_{<t})} A_t, \text{clip}\left(\frac{\pi_\theta(o_t | q, o_{<t})}{\pi_\theta^{\text{old}}(o_t | q, o_{<t})}, 1-\epsilon, 1+\epsilon\right) A_t\right)\right]$$
其中:
尽管 PPO 在稳定性上表现优异,但其在大规模模型训练中的局限性不容忽视:
2. GRPO 的设计目标
为了解决上述问题,GRPO 的设计目标是:
GRPO 的核心设计与实现
GRPO 的核心思想是通过组内相对奖励(Group Relative Reward)优化策略模型,避免了传统 PPO 对价值函数的依赖。以下是 GRPO 的完整实现细节。
1. 组内奖励建模
在 GRPO 中,每个问题 $q$ 的奖励信号来源于组内多个输出的相对比较。具体步骤如下:
对于每个问题 $q$,从旧策略 $\pi_\theta^{\text{old}}$ 中采样一组输出 ${o_1, o_2, \dots, o_G}$。
使用奖励模型对每个输出 $o_i$ 进行评分,得到奖励 ${r_1, r_2, \dots, r_G}$。
计算组内奖励的均值和标准差,并将奖励归一化为组内相对奖励:
$$A_i = \frac{r_i – \text{mean}({r_1, r_2, \dots, r_G})}{\text{std}({r_1, r_2, \dots, r_G})}$$
2. 优化目标
GRPO 的优化目标函数如下:
$$J_{\text{GRPO}}(\theta) = \mathbb{E}\left[\frac{1}{G} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \min\left(\frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_\theta^{\text{old}}(o_{i,t} | q, o_{i,<t})} A_{i,t}, \text{clip}\left(\frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_\theta^{\text{old}}(o_{i,t} | q, o_{i,<t})}, 1-\epsilon, 1+\epsilon\right) A_{i,t}\right)\right]$$
其中:
3. KL 正则化
为了进一步稳定训练过程,GRPO 在目标函数中加入了 KL 散度正则化项:
$$D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) = \sum_{o_i} \pi_\theta(o_i | q) \log\left(\frac{\pi_\theta(o_i | q)}{\pi_{\text{ref}}(o_i | q)}\right)$$
其中,$\pi_{\text{ref}}$ 是参考策略模型(通常是初始的 SFT 模型)。
最终的优化目标为:
$$J_{\text{GRPO}}(\theta) = J_{\text{GRPO}}(\theta) – \beta D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}})$$
其中,$\beta$ 是 KL 正则化项的权重。
GRPO 的实现与训练流程
以下是 GRPO 的完整训练流程:
1. 初始化
2. 采样与奖励计算
3. 策略优化
4. 迭代式更新
实验与结果分析
在数学推理任务中,GRPO 展现了显著的性能提升。以下是基于 GRPO 的实验结果:
在 GSM8K 和 MATH 数据集上,基于 GRPO 的 DeepSeekMath-RL 7B 分别达到了 88.2% 和 51.7% 的准确率,显著优于所有开源模型。
GRPO 通过去除价值函数,减少了约 40% 的内存消耗,同时训练速度提升了约 30%。
GRPO 的 KL 正则化项有效抑制了策略模型的过度更新,确保了训练过程的稳定性。
GRPO 的优势与未来展望
1. GRPO 的优势
2. 未来改进方向
结语
GRPO 的提出为大规模语言模型的强化学习开辟了一条新路径。通过组内相对奖励的创新设计,GRPO 在显著降低计算成本的同时,实现了卓越的性能提升。这一算法不仅为数学推理任务设立了新的标杆,也为强化学习在语言模型中的应用提供了重要启示。未来,随着算法的进一步优化与扩展,GRPO 有望在更多领域展现其潜力。