GRPO(Group Relative Policy Optimization,群组相对策略优化)是一种专门用于增强大型语言模型(LLMs)推理能力的强化学习算法。与传统的强化学习方法不同,GRPO通过评估彼此相关的响应组来优化模型,而不是依赖外部评估模型(价值函数)来指导学习。
GRPO最初由DeepSeek团队在DeepSeekMath论文中提出,现已成为训练推理型大语言模型的主流算法之一。它的核心思想是:通过在同一个问题上生成多条回答,把它们彼此之间做"相对比较",来代替传统PPO中的"价值模型"。这种方法显著降低了计算开销,提高了训练效率,使GRPO成为需要复杂问题解决和长链思维的推理任务的理想选择。
随着大语言模型的发展,传统强化学习方法在应用于LLM推理任务时面临着重大挑战:
- 对价值模型(Critic Model)的依赖:PPO需要单独的价值模型来估计每个响应的值,这会使内存和计算要求加倍
- 计算成本高:RL管道通常需要大量计算资源来迭代评估和优化响应
- 可扩展性问题:绝对奖励评估难以适应各种任务,因此很难在推理领域中进行推广
GRPO的出现正是为了解决这些问题,通过创新的设计实现了更高效且稳定的训练过程。