MiniMax CISPO 算法
深度研究

通过裁剪重要性采样权重，革新大语言模型强化学习训练范式

2025年6月 MiniMax 公司

训练效率提升 50%

成本降低 90%

参数量 4560亿

核心摘要

MiniMax CISPO（Clipped Importance Sampling Policy Optimization） 算法通过裁剪重要性采样权重而非传统的 Token 更新，有效解决了大语言模型（LLM）在强化学习训练中因裁剪关键低概率 Token 而导致的信息丢失与训练不稳定问题。

2倍

收敛速度提升

53.5万

美元训练成本

3周

训练周期

该算法在 MiniMax-M1 等模型的训练中展现出训练效率与稳定性的大幅提升，能够更快收敛并获得优异性能，尤其擅长需要长序列推理与复杂决策的任务，为大语言模型的高效训练提供了新路径。

1. MiniMax CISPO 算法概述

1.1 CISPO 算法定义与提出背景

CISPO（Clipped Importance Sampling Policy Optimization）算法是由MiniMax 公司提出的新型强化学习策略优化算法[1] [14]。该算法旨在解决传统强化学习算法（如 PPO、GRPO）在训练大语言模型时面临的稳定性与效率瓶颈问题[3] [6]。

核心问题：

在传统方法中，关键 Token（如“但是”、“重新思考”、“啊哈”）因概率较低，在策略更新时被裁剪，导致信息丢失和训练不稳定 [26] [39]。

1.2 "MiniMax CISPO" 与 CISPO 的关系

“MiniMax CISPO” 特指由 MiniMax 公司提出并推广的 CISPO 算法实现。该算法与 MiniMax 公司紧密相关，是其强化学习领域的重要技术创新[2] [3]。

2. CISPO 技术原理详解

2.1 传统强化学习算法（PPO/GRPO）的局限性：Token 裁剪问题

传统算法如近端策略优化（PPO）和组相对策略优化（GRPO）通常采用裁剪机制来限制策略更新的幅度，但这种机制会直接作用于Token 级别的更新 [36] [39]。

PPO 目标函数：

L^CLIP(θ) = E[min(r_t(θ)Â_t, clip(r_t(θ), 1-ε, 1+ε)Â_t)]

问题分析：

裁剪机制可能会无意中“剪掉”对结果至关重要但本身在基础模型中概率较低的关键 Token，如表示反思、转折的词汇，导致模型无法有效学习这些关键信息[26] [39]。

2.2 CISPO 的核心思想：裁剪重要性采样权重

CISPO 的核心创新在于将裁剪对象从 Token 更新转变为仅裁剪重要性采样（IS）权重本身 [1] [3]。

graph TD A["传统PPO/GRPO"] --> B["裁剪Token更新 r_t*Â_t"] C["CISPO算法"] --> D["仅裁剪重要性采样权重 r_t"] B --> E["可能丢失关键Token信息"] D --> F["保留所有Token梯度信息"] E --> G["训练不稳定"] F --> H["训练更稳定高效"] style C fill:#e1f5fe,stroke:#1976d2,stroke-width:3px style F fill:#e8f5e8,stroke:#388e3c,stroke-width:3px

裁剪后重要性采样权重：

r̂_i,t(θ) = clip(r_i,t(θ), 1-ε_low^IS, 1+ε_high^IS)

2.3 CISPO 算法公式推导

CISPO 目标函数：

J_CISPO(θ) = E_{(q,a)~D, {o_i}_i=1^G~π_{θ_old}(·|q)}[1/∑_i=1^G|o_i| ∑_i=1^G∑_t=1^|o_i| sg(r̂_i,t(θ)) Â_i,t log π_θ(o_i,t|q,o_i,<t)]

关键组件：

• sg(·): 停止梯度操作
• r̂_i,t(θ): 裁剪后重要性权重
• Â_i,t: 组相对优势

技术优势：

• 保留所有Token梯度
• 提升训练稳定性
• 加速收敛速度

3. CISPO 的应用实践

3.1 在 MiniMax-M1 大语言模型训练中的应用

MiniMax-M1 模型简介

MiniMax-M1 是由 MiniMax 公司推出的开放权重的大规模混合注意力推理模型，采用混合专家（MoE）架构和“闪电注意力”机制 [2] [4]。

4560亿

总参数量

459亿

激活参数量

100万

上下文长度

86.0%

AIME 2024

CISPO 在 MiniMax-M1 RL 训练中的效果

CISPO 算法在 MiniMax-M1 的强化学习训练阶段发挥了关键作用，显著提升了训练效率和模型性能[1] [4]。

50%

训练步数减少

53.5万

美元训练成本

512

H800 GPU数量

4. CISPO 与主流强化学习算法的对比分析

4.1 CISPO 与 PPO 的对比

对比维度	PPO	CISPO
裁剪对象	r_t(θ)Â_t（Token更新）	r_t(θ)（重要性权重）
KL约束	通常包含	通常不包含
梯度保留	可能丢失关键Token	保留所有Token梯度
收敛速度	基准	提升50%

4.2 CISPO 与 GRPO 的对比

GRPO 特点
• 使用组相对优势替代价值模型
• 保持PPO的裁剪机制
• 简化训练流程
• 在混合注意力架构下效果不佳

CISPO 改进
• 借鉴GRPO优势估计
• 创新裁剪机制
• 适合复杂推理任务
• 显著提升训练效率

4.3 CISPO 的优势与局限性总结

优势

• 保留所有Token梯度，提升推理能力
• 提升训练稳定性和效率
• 简化算法设计（无需KL约束）
• 更好的可扩展性

局限性

• 超参数敏感性
• 依赖优势函数估计质量
• 理论分析尚待完善
• 通用性需进一步验证

5. 总结与展望

5.1 CISPO 算法的核心贡献

CISPO 算法的核心贡献在于创新性地通过裁剪重要性采样权重而非传统 Token 更新，有效解决了大语言模型强化学习训练中的 Token 裁剪问题 [1] [3]。

训练稳定性

显著提升

训练效率

大幅提高

训练成本

显著降低

5.2 CISPO 算法的未来研究方向

理论分析

深入分析收敛性、样本复杂度等理论性质

自适应调参

动态调整裁剪边界等超参数

通用性验证

在其他模型架构和任务中的应用

技术融合

与其他先进RL技术结合

CISPO 算法为大语言模型的高效训练开辟了新路径

MiniMax CISPO 算法 深度研究