1 引言 New

传统的语言模型预训练主要依赖于下一个词预测任务,通过增加模型参数和训练数据量实现性能提升。然而,这种方法受限于高质量训练数据的可获得性。为了突破这一限制,Kimi团队提出了通过强化学习(RL)扩展训练数据的新途径。Kimi K1.5作为最新的多模态LLM,采用了一系列创新性的RL训练技术,成功实现了在多个基准测试中的领先表现,展示了RL在LLMs扩展中的巨大潜力。

2 方法

2.1 问题设定

给定一个训练数据集 $D = {(x_i, y_i^)}_{i=1}^n$,其中 $x_i$ 是问题, $y_i^$ 是对应的正确答案。我们的目标是训练一个策略模型 $\pi_\theta$,能够准确地解决测试问题。对于复杂推理任务,直接从 $x$ 映射到 $y$ 是非平凡的,因而引入了思维链(Chain-of-Thought, CoT)方法,即通过一系列中间步骤 $z = (z_1, z_2, \ldots, z_m)$ 来桥接 $x$ 和 $y$。

2.2 强化学习框架

为了增强模型的推理能力,本文采用强化学习框架优化生成的思维链及最终答案。具体而言,定义一个奖励模型 $r$,其根据问题 $x$,生成的答案 $y$,以及正确答案 $y^$ 来评估答案的正确性,奖励值 $r(x, y, y^) \in {0, 1}$。

2.2.1 策略模型的优化目标

优化目标为最大化期望奖励:

$$
\max_\theta \mathbb{E}{(x, y^) \sim D, (y, z) \sim \pi\theta}\left[ r(x, y, y^) \right]
$$

其中,$y$ 和 $z$ 都通过策略模型 $\pi_\theta$ 生成。

2.2.2 策略优化算法

采用在线策略镜像下降(Online Policy Mirror Descent, OPMD)的变体进行策略优化。具体步骤如下:

  1. 相对熵正则化优化问题: 在第 ( i ) 次迭代中,使用当前模型 ( \pi_{\theta_i} ) 作为参考模型,优化以下目标: $$
    \max_\theta \mathbb{E}{(x, y^) \sim D}\mathbb{E}{(y, z) \sim \pi_\theta}\left[ r(x, y, y^) \right] – \tau \text{KL}(\pi_\theta(x) || \pi_{\theta_i}(x))
    $$ 其中,$\tau > 0$ 为正则化参数,用于控制策略更新的步长。
  2. 闭式解: 通过优化,上述目标的闭式解为: $$
    \pi^(y, z | x) = \frac{\pi_{\theta_i}(y, z | x) \exp\left(\frac{r(x, y, y^)}{\tau}\right)}{Z}$$ 其中,归一化常数 $Z = \sum_{y’, z’} \pi_{\theta_i}(y’, z’ | x) \exp\left(\frac{r(x, y’, y^*)}{\tau}\right)$。
  3. 代理损失函数: 为了利用离策略数据,定义代理损失函数: $$L(\theta) = \mathbb{E}{(x, y^) \sim D}\left[ \mathbb{E}{(y, z) \sim \pi_{\theta_i}} \left( r(x, y, y^) – \tau \log Z – \tau \log \frac{\pi_\theta(y, z | x)}{\pi_{\theta_i}(y, z | x)} \right)^2 \right]$$
  4. 梯度更新: 使用样本近似 $\tau \log Z \approx \tau \log \frac{1}{k} \sum_{j=1}^k \exp\left(\frac{r(x, y_j, y^*)}{\tau}\right)$,并采用梯度下降法更新模型参数: $$\nabla_\theta L(\theta) \approx \frac{1}{k} \sum_{j=1}^k \nabla_\theta \log \pi_\theta(y_j, z_j | x) \left( r(x, y_j, y^*) – \bar{r} \right) – \frac{\tau}{2} \nabla_\theta \left( \log \frac{\pi_\theta(y_j, z_j | x)}{\pi_{\theta_i}(y_j, z_j | x)} \right)^2$$ 其中,$\bar{r}$ 是样本奖励的均值,作为基线以减少方差。

2.3 长上下文扩展(Long Context Scaling)

为提升RL训练的效率和模型的推理能力,Kimi K1.5通过以下方法扩展上下文长度至128k tokens:

  1. 部分回滚(Partial Rollouts): 通过部分回滚技术,重用之前的轨迹片段,避免从头生成新的轨迹,从而提高训练效率。具体而言,当轨迹长度超过设定的token限制时,保存未完成部分到回放缓冲区(Replay Buffer),并在下一次迭代中继续生成。
  2. 上下文长度的关键作用: 增加上下文长度不仅提升了模型的推理深度,还促进了计划、反思和纠错等高级认知过程的生成。通过长上下文,模型能够模拟更多的搜索步骤,增强问题解决的能力,而无需依赖复杂的搜索算法如蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)。

2.4 多模态数据处理

Kimi K1.5在训练过程中融合了文本和视觉数据,具体方法如下:

  1. 数据来源
  • 真实世界数据:涵盖科学问题、位置猜测任务、数据分析等,增强模型对真实场景的视觉推理能力。
  • 合成视觉推理数据:包括程序化生成的图像和场景,用于提升模型对空间关系、几何模式和对象交互的理解。
  • 文本渲染数据:将文本内容转换为视觉格式,确保模型在处理纯文本和文本渲染图像时保持一致性。
  1. 联合训练策略: 在训练的前三个阶段——视觉语言预训练、视觉语言冷却和长上下文激活中,逐步引入多模态数据,确保模型在掌握强大的语言能力的同时,也具备跨模态的知识对齐能力。

2.5 长到短(Long2Short)方法

尽管长链思维(long-CoT)模型在性能上表现优异,但其在推理时的token消耗较高。为此,Kimi K1.5引入了长到短方法,通过上下文压缩将长-CoT模型的思维先验迁移到短-CoT模型,从而在有限的token预算下提升模型性能。

  1. 模型合并(Model Merging): 将长-CoT模型和短-CoT模型的权重进行简单平均,融合两者的能力,提升短模型的性能和token效率。
  2. 最短拒绝采样(Shortest Rejection Sampling): 对同一问题生成多个响应,选择最短且正确的响应用于监督微调,提升短模型的token效率和回答质量。
  3. DPO(Direct Preference Optimization): 使用长-CoT模型生成多个响应,将最短正确响应作为正样本,较长或错误的响应作为负样本,形成成对偏好数据用于DPO训练,优化短模型的选择能力。
  4. 长到短强化学习(Long2Short RL): 在标准RL训练阶段选择性能与token效率最佳的长-CoT模型作为基础模型,随后应用长度惩罚和最大回滚长度限制,进一步优化短模型的token效率和回答准确性。

3 实验

3.1 评价指标

Kimi K1.5通过多模态评估基准进行全面测试,覆盖文本、推理和视觉三个主要类别。具体基准包括:

  • 文本基准:MMLU, IF-Eval, CLUEWSC, C-EVAL
  • 推理基准:HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH-500
  • 视觉基准:MMMU, MATH-Vision, MathVista

3.2 主要结果

实验结果显示,Kimi K1.5在长-CoT和短-CoT模式下均表现出色,尤其是在AIME 2024、MATH-500和Codeforces等推理基准上,略逊于OpenAI的GPT-4o模型但在多模态任务上表现出色。此外,长到短方法显著提升了短-CoT模型的性能,显示出良好的token效率。

3.3 长上下文扩展效果

通过将上下文长度扩展至128k tokens,Kimi K1.5在数学推理等复杂任务上的性能持续提升,验证了长上下文在RL训练中的重要性。训练过程中,响应长度与准确性呈现正相关关系,表明模型通过生成更长的思维链来解决更复杂的问题。

3.4 长到短方法效果

与DPO、最短拒绝采样和模型合并方法相比,长到短RL方法在token效率方面表现最佳。例如,Kimi K1.5短-CoT模型通过RL训练后在AIME2024上达到60.8的Pass@1成绩,同时仅消耗约3,272个tokens,显著优于其他方法。

3.5 消融研究

  1. 模型规模与上下文长度: 研究表明,尽管较大的模型在初始阶段表现优于较小模型,但通过长上下文和RL训练,较小模型能够在token效率上与大模型相媲美。然而,若不受token预算限制,增加模型规模和上下文长度的组合能达到更高的性能上限。
  2. 负梯度的作用: 与仅使用正梯度的ReST方法相比,本文提出的RL方法在样本复杂度和性能上均表现更佳,表明负梯度在生成高质量长-CoT中的重要性。
  3. 采样策略: 使用递进式采样策略(从简单到复杂)显著提升了模型的整体性能,验证了基于难度的采样方法在RL训练中的有效性。

4 结论

本文详细解析了Kimi K1.5多模态LLM通过强化学习实现的算法具体实现。通过长上下文扩展、改进的策略优化方法、简化的RL框架以及长到短方法,Kimi K1.5在多个推理和多模态基准上展示了卓越的性能。未来研究将继续优化长上下文RL训练的效率和可扩展性,并探索更先进的信用分配和防止过度思考的方法,以进一步提升LLMs的推理能力和实际应用价值。

参考文献

在本文中引用的参考文献均来自Kimi K1.5技术报告的参考文献部分,涵盖了RL、LLMs、算法优化等多个领域的最新研究成果。这些文献为本文的理论基础和方法实现提供了重要支持。


评论

发表回复

人生梦想 - 关注前沿的计算机技术 acejoy.com