MiniMax CISPO 算法
深度研究

通过裁剪重要性采样权重,革新大语言模型强化学习训练范式

2025年6月 MiniMax 公司
抽象的人工智能神经网络背景图
训练效率提升 50%
成本降低 90%
参数量 4560亿

核心摘要

MiniMax CISPO(Clipped Importance Sampling Policy Optimization) 算法通过裁剪重要性采样权重而非传统的 Token 更新,有效解决了大语言模型(LLM)在强化学习训练中因裁剪关键低概率 Token 而导致的信息丢失训练不稳定问题。

2倍

收敛速度提升

53.5万

美元训练成本

3周

训练周期

该算法在 MiniMax-M1 等模型的训练中展现出训练效率与稳定性的大幅提升,能够更快收敛并获得优异性能,尤其擅长需要长序列推理复杂决策的任务,为大语言模型的高效训练提供了新路径。

1. MiniMax CISPO 算法概述

1.1 CISPO 算法定义与提出背景

CISPO(Clipped Importance Sampling Policy Optimization)算法是由MiniMax 公司提出的新型强化学习策略优化算法[1] [14]。该算法旨在解决传统强化学习算法(如 PPO、GRPO)在训练大语言模型时面临的稳定性与效率瓶颈问题[3] [6]

核心问题:

在传统方法中,关键 Token(如“但是”、“重新思考”、“啊哈”)因概率较低,在策略更新时被裁剪,导致信息丢失训练不稳定 [26] [39]

1.2 "MiniMax CISPO" 与 CISPO 的关系

“MiniMax CISPO” 特指由 MiniMax 公司提出并推广的 CISPO 算法实现。该算法与 MiniMax 公司紧密相关,是其强化学习领域的重要技术创新[2] [3]

2. CISPO 技术原理详解

2.1 传统强化学习算法(PPO/GRPO)的局限性:Token 裁剪问题

传统算法如近端策略优化(PPO)组相对策略优化(GRPO)通常采用裁剪机制来限制策略更新的幅度,但这种机制会直接作用于Token 级别的更新 [36] [39]

PPO 目标函数:

LCLIP(θ) = E[min(rt(θ)Ât, clip(rt(θ), 1-ε, 1+ε)Ât)]

问题分析:

裁剪机制可能会无意中“剪掉”对结果至关重要但本身在基础模型中概率较低的关键 Token,如表示反思、转折的词汇,导致模型无法有效学习这些关键信息[26] [39]

2.2 CISPO 的核心思想:裁剪重要性采样权重

CISPO 的核心创新在于将裁剪对象从 Token 更新转变为仅裁剪重要性采样(IS)权重本身 [1] [3]

graph TD A["传统PPO/GRPO"] --> B["裁剪Token更新 r_t*Â_t"] C["CISPO算法"] --> D["仅裁剪重要性采样权重 r_t"] B --> E["可能丢失关键Token信息"] D --> F["保留所有Token梯度信息"] E --> G["训练不稳定"] F --> H["训练更稳定高效"] style C fill:#e1f5fe,stroke:#1976d2,stroke-width:3px style F fill:#e8f5e8,stroke:#388e3c,stroke-width:3px

裁剪后重要性采样权重:

i,t(θ) = clip(ri,t(θ), 1-εlowIS, 1+εhighIS)

2.3 CISPO 算法公式推导

CISPO 目标函数:

JCISPO(θ) = E(q,a)~D, {oi}i=1Gθ_old(·|q)[1/∑i=1G|oi| ∑i=1Gt=1|oi| sg(r̂i,t(θ)) Âi,t log πθ(oi,t|q,oi,<t)]

关键组件:

  • • sg(·): 停止梯度操作
  • • r̂i,t(θ): 裁剪后重要性权重
  • • Âi,t: 组相对优势

技术优势:

  • • 保留所有Token梯度
  • • 提升训练稳定性
  • • 加速收敛速度

3. CISPO 的应用实践

3.1 在 MiniMax-M1 大语言模型训练中的应用

MiniMax-M1 模型简介

MiniMax-M1 是由 MiniMax 公司推出的开放权重的大规模混合注意力推理模型,采用混合专家(MoE)架构“闪电注意力”机制 [2] [4]

4560亿

总参数量

459亿

激活参数量

100万

上下文长度

86.0%

AIME 2024

MoE模型架构示意图

CISPO 在 MiniMax-M1 RL 训练中的效果

CISPO 算法在 MiniMax-M1 的强化学习训练阶段发挥了关键作用,显著提升了训练效率和模型性能[1] [4]

50%

训练步数减少

53.5万

美元训练成本

512

H800 GPU数量

4. CISPO 与主流强化学习算法的对比分析

4.1 CISPO 与 PPO 的对比

对比维度 PPO CISPO
裁剪对象 rt(θ)Ât(Token更新) rt(θ)(重要性权重)
KL约束 通常包含 通常不包含
梯度保留 可能丢失关键Token 保留所有Token梯度
收敛速度 基准 提升50%

4.2 CISPO 与 GRPO 的对比

GRPO 特点

  • • 使用组相对优势替代价值模型
  • • 保持PPO的裁剪机制
  • • 简化训练流程
  • • 在混合注意力架构下效果不佳

CISPO 改进

  • • 借鉴GRPO优势估计
  • • 创新裁剪机制
  • • 适合复杂推理任务
  • • 显著提升训练效率

4.3 CISPO 的优势与局限性总结

优势

  • • 保留所有Token梯度,提升推理能力
  • • 提升训练稳定性和效率
  • • 简化算法设计(无需KL约束)
  • • 更好的可扩展性

局限性

  • • 超参数敏感性
  • • 依赖优势函数估计质量
  • • 理论分析尚待完善
  • • 通用性需进一步验证

5. 总结与展望

5.1 CISPO 算法的核心贡献

CISPO 算法的核心贡献在于创新性地通过裁剪重要性采样权重而非传统 Token 更新,有效解决了大语言模型强化学习训练中的 Token 裁剪问题 [1] [3]

训练稳定性

显著提升

训练效率

大幅提高

训练成本

显著降低

5.2 CISPO 算法的未来研究方向

理论分析

深入分析收敛性、样本复杂度等理论性质

自适应调参

动态调整裁剪边界等超参数

通用性验证

在其他模型架构和任务中的应用

技术融合

与其他先进RL技术结合

AI技术未来发展概念图

CISPO 算法为大语言模型的高效训练开辟了新路径