借一步网
作者:
在
传统的语言模型预训练主要依赖于下一个词预测任务,通过增加模型参数和训练数据量实现性能提升。然而,这种方法受限于高质量训练数据的可获得性。为了突破这一限制,Kimi团队提出了通过强化学习(RL)扩展训练数据的新途径。Kimi K1.5作为最新的多模态LLM,采用了一系列创新性的RL训练技术,成功实现了在多个基准测试中的领先表现,展示了RL在LLMs扩展中的巨大潜力。
给定一个训练数据集 $D = {(x_i, y_i^)}_{i=1}^n$,其中 $x_i$ 是问题, $y_i^$ 是对应的正确答案。我们的目标是训练一个策略模型 $\pi_\theta$,能够准确地解决测试问题。对于复杂推理任务,直接从 $x$ 映射到 $y$ 是非平凡的,因而引入了思维链(Chain-of-Thought, CoT)方法,即通过一系列中间步骤 $z = (z_1, z_2, \ldots, z_m)$ 来桥接 $x$ 和 $y$。
为了增强模型的推理能力,本文采用强化学习框架优化生成的思维链及最终答案。具体而言,定义一个奖励模型 $r$,其根据问题 $x$,生成的答案 $y$,以及正确答案 $y^$ 来评估答案的正确性,奖励值 $r(x, y, y^) \in {0, 1}$。
优化目标为最大化期望奖励:
$$\max_\theta \mathbb{E}{(x, y^) \sim D, (y, z) \sim \pi\theta}\left[ r(x, y, y^) \right]$$
其中,$y$ 和 $z$ 都通过策略模型 $\pi_\theta$ 生成。
采用在线策略镜像下降(Online Policy Mirror Descent, OPMD)的变体进行策略优化。具体步骤如下:
为提升RL训练的效率和模型的推理能力,Kimi K1.5通过以下方法扩展上下文长度至128k tokens:
Kimi K1.5在训练过程中融合了文本和视觉数据,具体方法如下:
尽管长链思维(long-CoT)模型在性能上表现优异,但其在推理时的token消耗较高。为此,Kimi K1.5引入了长到短方法,通过上下文压缩将长-CoT模型的思维先验迁移到短-CoT模型,从而在有限的token预算下提升模型性能。
Kimi K1.5通过多模态评估基准进行全面测试,覆盖文本、推理和视觉三个主要类别。具体基准包括:
实验结果显示,Kimi K1.5在长-CoT和短-CoT模式下均表现出色,尤其是在AIME 2024、MATH-500和Codeforces等推理基准上,略逊于OpenAI的GPT-4o模型但在多模态任务上表现出色。此外,长到短方法显著提升了短-CoT模型的性能,显示出良好的token效率。
通过将上下文长度扩展至128k tokens,Kimi K1.5在数学推理等复杂任务上的性能持续提升,验证了长上下文在RL训练中的重要性。训练过程中,响应长度与准确性呈现正相关关系,表明模型通过生成更长的思维链来解决更复杂的问题。
与DPO、最短拒绝采样和模型合并方法相比,长到短RL方法在token效率方面表现最佳。例如,Kimi K1.5短-CoT模型通过RL训练后在AIME2024上达到60.8的Pass@1成绩,同时仅消耗约3,272个tokens,显著优于其他方法。
本文详细解析了Kimi K1.5多模态LLM通过强化学习实现的算法具体实现。通过长上下文扩展、改进的策略优化方法、简化的RL框架以及长到短方法,Kimi K1.5在多个推理和多模态基准上展示了卓越的性能。未来研究将继续优化长上下文RL训练的效率和可扩展性,并探索更先进的信用分配和防止过度思考的方法,以进一步提升LLMs的推理能力和实际应用价值。
在本文中引用的参考文献均来自Kimi K1.5技术报告的参考文献部分,涵盖了RL、LLMs、算法优化等多个领域的最新研究成果。这些文献为本文的理论基础和方法实现提供了重要支持。
要发表评论,您必须先登录。
传统的语言模型预训练主要依赖于下一个词预测任务,通过增加模型参数和训练数据量实现性能提升。然而,这种方法受限于高质量训练数据的可获得性。为了突破这一限制,Kimi团队提出了通过强化学习(RL)扩展训练数据的新途径。Kimi K1.5作为最新的多模态LLM,采用了一系列创新性的RL训练技术,成功实现了在多个基准测试中的领先表现,展示了RL在LLMs扩展中的巨大潜力。
2 方法
2.1 问题设定
给定一个训练数据集 $D = {(x_i, y_i^)}_{i=1}^n$,其中 $x_i$ 是问题, $y_i^$ 是对应的正确答案。我们的目标是训练一个策略模型 $\pi_\theta$,能够准确地解决测试问题。对于复杂推理任务,直接从 $x$ 映射到 $y$ 是非平凡的,因而引入了思维链(Chain-of-Thought, CoT)方法,即通过一系列中间步骤 $z = (z_1, z_2, \ldots, z_m)$ 来桥接 $x$ 和 $y$。
2.2 强化学习框架
为了增强模型的推理能力,本文采用强化学习框架优化生成的思维链及最终答案。具体而言,定义一个奖励模型 $r$,其根据问题 $x$,生成的答案 $y$,以及正确答案 $y^$ 来评估答案的正确性,奖励值 $r(x, y, y^) \in {0, 1}$。
2.2.1 策略模型的优化目标
优化目标为最大化期望奖励:
$$
\max_\theta \mathbb{E}{(x, y^) \sim D, (y, z) \sim \pi\theta}\left[ r(x, y, y^) \right]
$$
其中,$y$ 和 $z$ 都通过策略模型 $\pi_\theta$ 生成。
2.2.2 策略优化算法
采用在线策略镜像下降(Online Policy Mirror Descent, OPMD)的变体进行策略优化。具体步骤如下:
\max_\theta \mathbb{E}{(x, y^) \sim D}\mathbb{E}{(y, z) \sim \pi_\theta}\left[ r(x, y, y^) \right] – \tau \text{KL}(\pi_\theta(x) || \pi_{\theta_i}(x))
$$ 其中,$\tau > 0$ 为正则化参数,用于控制策略更新的步长。
\pi^(y, z | x) = \frac{\pi_{\theta_i}(y, z | x) \exp\left(\frac{r(x, y, y^)}{\tau}\right)}{Z}$$ 其中,归一化常数 $Z = \sum_{y’, z’} \pi_{\theta_i}(y’, z’ | x) \exp\left(\frac{r(x, y’, y^*)}{\tau}\right)$。
2.3 长上下文扩展(Long Context Scaling)
为提升RL训练的效率和模型的推理能力,Kimi K1.5通过以下方法扩展上下文长度至128k tokens:
2.4 多模态数据处理
Kimi K1.5在训练过程中融合了文本和视觉数据,具体方法如下:
2.5 长到短(Long2Short)方法
尽管长链思维(long-CoT)模型在性能上表现优异,但其在推理时的token消耗较高。为此,Kimi K1.5引入了长到短方法,通过上下文压缩将长-CoT模型的思维先验迁移到短-CoT模型,从而在有限的token预算下提升模型性能。
3 实验
3.1 评价指标
Kimi K1.5通过多模态评估基准进行全面测试,覆盖文本、推理和视觉三个主要类别。具体基准包括:
3.2 主要结果
实验结果显示,Kimi K1.5在长-CoT和短-CoT模式下均表现出色,尤其是在AIME 2024、MATH-500和Codeforces等推理基准上,略逊于OpenAI的GPT-4o模型但在多模态任务上表现出色。此外,长到短方法显著提升了短-CoT模型的性能,显示出良好的token效率。
3.3 长上下文扩展效果
通过将上下文长度扩展至128k tokens,Kimi K1.5在数学推理等复杂任务上的性能持续提升,验证了长上下文在RL训练中的重要性。训练过程中,响应长度与准确性呈现正相关关系,表明模型通过生成更长的思维链来解决更复杂的问题。
3.4 长到短方法效果
与DPO、最短拒绝采样和模型合并方法相比,长到短RL方法在token效率方面表现最佳。例如,Kimi K1.5短-CoT模型通过RL训练后在AIME2024上达到60.8的Pass@1成绩,同时仅消耗约3,272个tokens,显著优于其他方法。
3.5 消融研究
4 结论
本文详细解析了Kimi K1.5多模态LLM通过强化学习实现的算法具体实现。通过长上下文扩展、改进的策略优化方法、简化的RL框架以及长到短方法,Kimi K1.5在多个推理和多模态基准上展示了卓越的性能。未来研究将继续优化长上下文RL训练的效率和可扩展性,并探索更先进的信用分配和防止过度思考的方法,以进一步提升LLMs的推理能力和实际应用价值。
参考文献
在本文中引用的参考文献均来自Kimi K1.5技术报告的参考文献部分,涵盖了RL、LLMs、算法优化等多个领域的最新研究成果。这些文献为本文的理论基础和方法实现提供了重要支持。