MiniMax CISPO 算法
深度研究
通过裁剪重要性采样权重,革新大语言模型强化学习训练范式
核心摘要
MiniMax CISPO(Clipped Importance Sampling Policy Optimization) 算法通过裁剪重要性采样权重而非传统的 Token 更新,有效解决了大语言模型(LLM)在强化学习训练中因裁剪关键低概率 Token 而导致的信息丢失与训练不稳定问题。
收敛速度提升
美元训练成本
训练周期
该算法在 MiniMax-M1 等模型的训练中展现出训练效率与稳定性的大幅提升,能够更快收敛并获得优异性能,尤其擅长需要长序列推理与复杂决策的任务,为大语言模型的高效训练提供了新路径。
2. CISPO 技术原理详解
2.1 传统强化学习算法(PPO/GRPO)的局限性:Token 裁剪问题
传统算法如近端策略优化(PPO)和组相对策略优化(GRPO)通常采用裁剪机制来限制策略更新的幅度,但这种机制会直接作用于Token 级别的更新 [36] [39]。
PPO 目标函数:
LCLIP(θ) = E[min(rt(θ)Ât, clip(rt(θ), 1-ε, 1+ε)Ât)]
2.2 CISPO 的核心思想:裁剪重要性采样权重
CISPO 的核心创新在于将裁剪对象从 Token 更新转变为仅裁剪重要性采样(IS)权重本身 [1] [3]。
裁剪后重要性采样权重:
r̂i,t(θ) = clip(ri,t(θ), 1-εlowIS, 1+εhighIS)
2.3 CISPO 算法公式推导
CISPO 目标函数:
JCISPO(θ) = E(q,a)~D, {oi}i=1G~πθ_old(·|q)[1/∑i=1G|oi| ∑i=1G∑t=1|oi| sg(r̂i,t(θ)) Âi,t log πθ(oi,t|q,oi,<t)]
关键组件:
- • sg(·): 停止梯度操作
- • r̂i,t(θ): 裁剪后重要性权重
- • Âi,t: 组相对优势
技术优势:
- • 保留所有Token梯度
- • 提升训练稳定性
- • 加速收敛速度
4. CISPO 与主流强化学习算法的对比分析
4.1 CISPO 与 PPO 的对比
对比维度 | PPO | CISPO |
---|---|---|
裁剪对象 | rt(θ)Ât(Token更新) | rt(θ)(重要性权重) |
KL约束 | 通常包含 | 通常不包含 |
梯度保留 | 可能丢失关键Token | 保留所有Token梯度 |
收敛速度 | 基准 | 提升50% |
4.2 CISPO 与 GRPO 的对比
GRPO 特点
- • 使用组相对优势替代价值模型
- • 保持PPO的裁剪机制
- • 简化训练流程
- • 在混合注意力架构下效果不佳
CISPO 改进
- • 借鉴GRPO优势估计
- • 创新裁剪机制
- • 适合复杂推理任务
- • 显著提升训练效率
4.3 CISPO 的优势与局限性总结
优势
- • 保留所有Token梯度,提升推理能力
- • 提升训练稳定性和效率
- • 简化算法设计(无需KL约束)
- • 更好的可扩展性
局限性
- • 超参数敏感性
- • 依赖优势函数估计质量
- • 理论分析尚待完善
- • 通用性需进一步验证