借一步网
作者:
在
开放语言模型的后训练(Post-Training)是提升模型行为和解锁新技能的重要步骤。尽管这些技术在闭源模型中得到了广泛应用,但开放资源和具体训练方案相对滞后。为填补这一空白,我们介绍了Tülu 3,作为一系列完全开放的先进后训练模型,配套提供了数据集、代码及训练配方,旨在为现代后训练技术提供全面的指导。Tülu 3基于Llama 3.1模型,通过监督微调(SFT)、直接偏好优化(DPO)以及一种新颖的方法——具有可验证奖励的强化学习(RLVR),实现了在多项基准测试中超越现有开放和闭源模型的性能。本文重点详述了Tülu 3中算法的具体实现过程及其细节。
后训练技术,包括指令调优、基于人类反馈的强化学习(RLHF)等,已成为构建前沿语言模型的关键步骤。然而,这些技术的开放实现和资源相对闭源方法仍有较大差距。Tülu 3的提出旨在通过公开的训练数据、代码和训练配方,推动开放语言模型后训练研究的发展,缩小与闭源方法之间的差距。
Tülu 3采用多阶段的训练流程,逐步优化模型性能,具体包括数据策划、监督微调、偏好调优以及增强的强化学习阶段。以下将详细介绍每个阶段的算法实现和细节。
数据策划是后训练流程的基础,目标是收集和生成多样化、高质量的指令和响应,以覆盖模型需提升的核心技能,如推理、数学、编程等。
通过广泛调研现有公开数据集,选择能够促进多样性和覆盖目标技能的高质量数据集,如WildChat、OpenAssistant、FLAN v2等。数据集的选择基于多样性、质量和许可证的透明度,确保训练数据的合法性和多样性。
为了弥补公共数据集在特定技能上的不足,采用基于角色驱动的方法生成合成数据。具体步骤包括:
监督微调阶段旨在通过已有的高质量指令-响应对进一步优化模型,使其能够更好地理解和执行指令。
通过多轮实验优化数据混合比例,确保各类核心技能的均衡提升。具体步骤包括:
偏好调优旨在通过学习人类或模拟偏好,进一步优化模型输出的质量和符合性。Tülu 3采用直接偏好优化(DPO)作为主要方法,并进行了多项优化实验。
为解决偏好优化过程中长度偏差问题,Tülu 3采用长度归一化的DPO方法,其目标函数为:
通过对响应长度进行归一化,减轻了模型在偏好优化中的长度偏差,提升了训练效率和输出质量。
RLVR是一种新颖的方法,旨在通过强化学习仅在模型生成的输出经过验证正确时给予奖励,从而提升模型在特定任务上的性能。
通过多轮实验,调整了PPO的关键超参数,如学习率、KL惩罚系数等,确保RLVR训练的稳定性和有效性。此外,引入异步RL训练架构,利用vLLM加速大规模模型的推理过程,提高了训练效率。
Tülu 3通过广泛的基准测试验证了其性能,具体包括开发集和未见评估集的表现。实验结果显示,Tülu 3在多项核心技能上显著优于现有的开放和闭源模型,尤其在数学推理和精确指令遵循方面表现突出。
Tülu 3作为一系列完全开放的语言模型,展示了现代后训练框架的先进性。通过结合监督微调、直接偏好优化以及具有可验证奖励的强化学习,Tülu 3在多项基准测试中超越了现有的开放和闭源模型。我们详细阐述了Tülu 3中各个算法阶段的具体实现过程及其优化细节,为未来的开放后训练研究提供了宝贵的参考。
我们感谢John Schulman在项目中的宝贵建议,感谢National Artificial Intelligence Research Resource (NAIRR) Pilot和Microsoft Azure对本工作的支持。此外,感谢Ai2和华盛顿大学NLP社区的无数成员在项目
要发表评论,您必须先登录。
摘要
开放语言模型的后训练(Post-Training)是提升模型行为和解锁新技能的重要步骤。尽管这些技术在闭源模型中得到了广泛应用,但开放资源和具体训练方案相对滞后。为填补这一空白,我们介绍了Tülu 3,作为一系列完全开放的先进后训练模型,配套提供了数据集、代码及训练配方,旨在为现代后训练技术提供全面的指导。Tülu 3基于Llama 3.1模型,通过监督微调(SFT)、直接偏好优化(DPO)以及一种新颖的方法——具有可验证奖励的强化学习(RLVR),实现了在多项基准测试中超越现有开放和闭源模型的性能。本文重点详述了Tülu 3中算法的具体实现过程及其细节。
1. 引言
后训练技术,包括指令调优、基于人类反馈的强化学习(RLHF)等,已成为构建前沿语言模型的关键步骤。然而,这些技术的开放实现和资源相对闭源方法仍有较大差距。Tülu 3的提出旨在通过公开的训练数据、代码和训练配方,推动开放语言模型后训练研究的发展,缩小与闭源方法之间的差距。
2. Tülu 3 概述
Tülu 3采用多阶段的训练流程,逐步优化模型性能,具体包括数据策划、监督微调、偏好调优以及增强的强化学习阶段。以下将详细介绍每个阶段的算法实现和细节。
2.1 数据策划(Data Curation)
数据策划是后训练流程的基础,目标是收集和生成多样化、高质量的指令和响应,以覆盖模型需提升的核心技能,如推理、数学、编程等。
2.1.1 公共数据集来源
通过广泛调研现有公开数据集,选择能够促进多样性和覆盖目标技能的高质量数据集,如WildChat、OpenAssistant、FLAN v2等。数据集的选择基于多样性、质量和许可证的透明度,确保训练数据的合法性和多样性。
2.1.2 针对目标技能的合成数据生成
为了弥补公共数据集在特定技能上的不足,采用基于角色驱动的方法生成合成数据。具体步骤包括:
2.2 监督微调(Supervised Finetuning, SFT)
监督微调阶段旨在通过已有的高质量指令-响应对进一步优化模型,使其能够更好地理解和执行指令。
2.2.1 SFT 数据准备
2.2.2 Tülu 3 SFT 混合数据集
通过多轮实验优化数据混合比例,确保各类核心技能的均衡提升。具体步骤包括:
2.3 偏好调优(Preference Tuning)
偏好调优旨在通过学习人类或模拟偏好,进一步优化模型输出的质量和符合性。Tülu 3采用直接偏好优化(DPO)作为主要方法,并进行了多项优化实验。
2.3.1 偏好数据生成
2.3.2 长度归一化的DPO(Length-Normalized DPO)
为解决偏好优化过程中长度偏差问题,Tülu 3采用长度归一化的DPO方法,其目标函数为:
通过对响应长度进行归一化,减轻了模型在偏好优化中的长度偏差,提升了训练效率和输出质量。
2.4 强化学习与可验证奖励(Reinforcement Learning with Verifiable Rewards, RLVR)
RLVR是一种新颖的方法,旨在通过强化学习仅在模型生成的输出经过验证正确时给予奖励,从而提升模型在特定任务上的性能。
2.4.1 RLVR 数据准备
2.4.2 RLVR 训练流程
2.4.3 RLVR 训练细节与优化
通过多轮实验,调整了PPO的关键超参数,如学习率、KL惩罚系数等,确保RLVR训练的稳定性和有效性。此外,引入异步RL训练架构,利用vLLM加速大规模模型的推理过程,提高了训练效率。
2.5 评估与结果
Tülu 3通过广泛的基准测试验证了其性能,具体包括开发集和未见评估集的表现。实验结果显示,Tülu 3在多项核心技能上显著优于现有的开放和闭源模型,尤其在数学推理和精确指令遵循方面表现突出。
3. 结论
Tülu 3作为一系列完全开放的语言模型,展示了现代后训练框架的先进性。通过结合监督微调、直接偏好优化以及具有可验证奖励的强化学习,Tülu 3在多项基准测试中超越了现有的开放和闭源模型。我们详细阐述了Tülu 3中各个算法阶段的具体实现过程及其优化细节,为未来的开放后训练研究提供了宝贵的参考。
致谢
我们感谢John Schulman在项目中的宝贵建议,感谢National Artificial Intelligence Research Resource (NAIRR) Pilot和Microsoft Azure对本工作的支持。此外,感谢Ai2和华盛顿大学NLP社区的无数成员在项目