ZEPHYR: 直接提取LM对齐

178次阅读
2 条评论

摘要
我们的目标是创建一个更小、与用户意图对齐的语言模型。先前的研究表明,对更大的模型应用蒸馏监督微调(dSFT)可以显著提高任务准确性;然而,这些模型没有对齐,即它们无法很好地响应自然提示。为了提取这个特性,我们尝试使用来自 AI 反馈(AIF)的偏好数据。我们从一个由教师模型排名的输出数据集开始,应用蒸馏直接偏好优化(dDPO)来学习一个具有显著改善意图对齐的聊天模型。这种方法只需要几个小时的训练时间,在微调过程中不需要任何额外的采样。最终结果 ZEPHYR-7B 在 7B 参数模型的聊天基准测试中取得了新的最佳表现,并且不需要人工标注。特别是,在 MT-Bench 上的结果显示,ZEPHYR-7B 超过了基于 RLHF 的开放访问模型 LLAMA2-CHAT-70B。该系统的代码、模型、数据和教程可在 https://github.com/huggingface/alignment-handbook 上获得。

引言
近年来,小型、开放的大型语言模型(LLM)的能力大大提高,从早期的 GPT- 2 样式模型(Wang&Komatsuzaki,2021)到准确而紧凑的模型(Touvron 等,2023;Penedo 等,2023;Jiang 等,2023),这些模型训练的令牌数量远远超过了 Chincilla 缩放定律建议的“计算优化”数量。此外,研究人员已经证明,通过使用专有模型进行蒸馏监督微调(dSFT)可以进一步提高这些模型的准确性(Taori 等,2023)。在这种方法中,更强大的教师模型的输出被用作学生模型的监督数据。

蒸馏已经被证明是改善各种不同任务上开放模型的有效工具(Chiang 等,2023);然而,它并没有达到教师模型的性能(Gudibande 等,2023)。用户注意到这些模型不是“意图对齐”的,即它们的行为不符合人类用户的偏好。这种特性经常导致无法正确回答查询的输出。

意图对齐一直很难量化,但最近的研究已经导致了 MT-Bench(Zheng 等,2023)和 AlpacaEval(Li 等,2023)等针对这种行为的基准的发展。这些基准产生的分数与模型输出的人类评级密切相关,并确认了专有模型的质量优于使用人工反馈训练的开放模型,后者又优于使用蒸馏训练的开放模型。这促使人们对对齐进行仔细的人工反馈收集,但这往往需要巨大的成本,比如 LLAMA2-CHAT(Touvron 等,2023)。

在这项工作中,我们考虑了通过蒸馏完全对齐一个小型开放 LLM 的问题。主要步骤是利用来自教师模型集合的 AI 反馈(AIF)作为偏好数据,并将蒸馏直接偏好优化作为学习目标(Rafailov 等,20231. 引言

近年来,大型语言模型(LLM)在自然语言处理领域取得了巨大的进展。从早期的 GPT- 2 模型到如今更准确、更紧凑的模型,这些模型通过训练来理解和生成自然语言文本。然而,尽管这些模型在许多任务上表现出色,但它们并不总是能够完全理解用户的意图。

为了提高模型在特定任务上的准确性和对用户意图的理解能力,研究人员提出了一种新的方法——直接提取 LM 对齐。这种方法通过蒸馏监督微调(dSFT)和偏好数据优化(dDPO)来训练一个与用户意图对齐的小型语言模型。

本文将详细介绍 ZEPHYR 项目,它是一个直接提取 LM 对齐的模型,旨在创建一个小型语言模型,它能够更好地理解用户的意图并提供准确的回答。

2. 直接提取 LM 对齐的方法

在传统的监督学习中,通常使用人工标注的数据来训练模型。然而,这种方法需要耗费大量的时间和人力成本,并且对于大规模的语言模型来说,准备数据集是一项巨大的挑战。

为了解决这个问题,研究人员提出了一种直接提取 LM 对齐的方法。该方法利用来自 AI 反馈(AIF)的偏好数据,通过蒸馏直接偏好优化(dDPO)来训练模型。具体而言,该方法从一个由教师模型排名的输出数据集开始,通过优化目标函数来训练一个与用户意图对齐的聊天模型。与传统的监督学习相比,直接提取 LM 对齐的方法具有以下优势:

  • 更高的效率:直接提取 LM 对齐的方法只需要几个小时的训练时间,而不需要额外的采样过程。
  • 更好的意图对齐:通过使用偏好数据优化,模型能够更好地对齐用户的意图,从而提供更准确的回答。
  • 无需人工标注:与传统的监督学习不同,直接提取 LM 对齐的方法不需要人工标注的数据,从而减少了人力成本。

3. ZEPHYR-7B 模型的实验结果

ZEPHYR 项目的目标是创建一个小型语言模型,它能够在特定任务上表现出与人类对齐的准确性。为了评估 ZEPHYR 模型的性能,研究人员使用了 MT-Bench 基准测试数据集,并与其他模型进行了比较。

实验结果表明,ZEPHYR-7B 模型在 MT-Bench 数据集上取得了优秀的表现,超过了基于 RLHF 的开放访问模型 LLAMA2-CHAT-70B。与其他开放模型相比,ZEPHYR-7B 模型在意图对齐方面具有明显的优势,这意味着它能够更好地理解用户的意图并提供准确的回答。

4. 结论

本文介绍了 ZEPHYR 项目的直接提取 LM 对齐方法,并展示了实验结果。通过使用偏好数据优化和蒸馏直接偏好优化,ZEPHYR-7B 模型在意图对齐方面取得了优异的性能,超越了其他开放模型。这证明了直接提取 LM 对齐方法的有效性。

ZEPHYR 项目的成功背后有几个关键因素。首先,使用 AI 反馈数据作为偏好数据,能够更好地捕捉用户的意图和偏好。这种数据的使用使得模型能够更好地对齐用户的意图,从而提供更准确的回答。

其次,蒸馏直接偏好优化的方法能够在短时间内训练出高性能的模型。与传统的监督学习相比,这种方法不需要人工标注的数据,大大减少了训练的时间和成本。

最后,ZEPHYR 项目的成功离不开团队的努力和创新精神。研究人员通过不断探索和改进模型的训练方法,取得了令人瞩目的成果。

虽然 ZEPHYR 项目取得了显著的成果,但仍有一些挑战需要克服。例如,如何进一步提高模型在意图对齐方面的性能,以及如何应对不同领域和语境下的挑战,都是需要进一步研究和探索的问题。

总之,ZEPHYR 项目的直接提取 LM 对齐方法为创建小型语言模型提供了一种有效的途径。通过利用 AI 反馈数据和蒸馏直接偏好优化,ZEPHYR-7B 模型在意图对齐方面取得了显著的进展。这为未来的研究和应用提供了新的思路和方法。我们期待着在实际应用中看到这种方法的进一步发展和应用。

💡 如果你对 ZEPHYR 项目感兴趣,想了解更多关于该项目的代码、模型、数据和教程,可以访问 https://github.com/huggingface/alignment-handbook  获取更多信息。

💡 欢迎留言分享你对 ZEPHYR 项目的看法和想法!我们期待与您的交流和讨论!

(本文是基于论文《ZEPHYR: Aligning Large Language Models with Direct Extraction of LM Alignments》的改编,并结合个人理解进行了阐述。)

正文完
 
评论(2 条评论)
2023-12-21 23:11:04 回复

蒸馏直接偏好优化(dDPO)是一种用于训练模型的方法,旨在提高模型与用户意图的对齐性。该方法通过利用来自教师模型集合的AI反馈(AIF)作为偏好数据,并将蒸馏直接偏好优化作为学习目标,从而实现对小型开源大型语言模型(LLM)的完全对齐。

这种方法的主要优势在于不需要人工注释和采样,通过使用小型基础LM,可以在较短的时间内进行训练。研究者构建了一个名为ZEPHYR-7B的模型,通过应用基于AI反馈数据的dDPO方法,该模型在性能上可以与使用人工反馈对齐的70B参数对话模型媲美。实验证明,这种方法在标准学术基准和考虑会话能力的基准方面都有改善,并且偏好学习在取得这些结果方面起到了关键作用。

 Windows  Edge  美国科罗拉多丹佛
2023-12-21 23:16:14 回复

在训练大语言模型(LLM)时,误差是通过计算模型生成的文本与目标文本之间的差异来衡量的。这个差异通常使用一种称为交叉熵损失(cross-entropy loss)的指标来计算。交叉熵损失是一种常用的衡量两个概率分布之间差异的方法,用于衡量模型生成的文本与目标文本之间的相似度。

具体来说,训练LLM的过程中,首先给定一个输入文本作为模型的输入,然后模型会生成一个输出文本。这个输出文本与目标文本进行比较,计算它们之间的交叉熵损失。交叉熵损失越小,表示模型生成的文本与目标文本越接近,模型的性能越好。

为了计算交叉熵损失,通常需要将文本转化为数值表示,例如使用单词的索引或者词向量表示。然后,将模型生成的文本与目标文本进行比较,计算它们之间的交叉熵损失。这个损失可以通过反向传播算法来更新模型的参数,使得模型能够逐渐优化并生成更接近目标文本的输出。

需要注意的是,训练LLM是一个迭代的过程,通常需要使用大量的训练数据和多个训练步骤来不断优化模型的性能。在每个训练步骤中,计算误差并更新模型参数,以使模型逐渐学习到更准确的文本生成能力。

 Windows  Edge  美国科罗拉多丹佛