[1] Hao Liu, Carmelo Sferrazza, Pieter Abbeel. Chain of Hindsight: Aligning Language Models with Feedback. arXiv preprint arXiv:2302.02676, 2023.
[2] Ming-Wei Chang, Samuel Bowman, Sara Hooker, Erica Bowman. Learning to Rank from Human Feedback: A Case Study in Summarization. arXiv preprint arXiv:2204.05816, 2022.
大家好,欢迎收听本期播客。今天,我们将讨论一篇关于语言模型如何从人类反馈中学习的论文。这篇论文的题目是《链式回顾:利用反馈将语言模型与人类偏好相一致》,由加州大学伯克利分校的研究人员撰写。
引言
语言模型在自然语言理解方面取得了惊人的成绩,但为了确保这些技术对社会产生积极影响,使它们与人类价值观保持一致至关重要。实现这一目标的最关键因素之一是利用人类反馈。人类反馈使我们能够以一种既客观又主观的的方式评估此类模型的性能。它可以帮助发现准确性、公平性和偏差方面的问题,并可以提供有关如何改进模型的见解,以确保模型输出与社会规范和期望保持一致。受将人类反馈纳入语言模型重要性的推动,研究人员一直在开发和测试各种人机交互系统的技术。这些方法旨在提高将人类反馈纳入其中的效率,从而构建能够实现更高性能和准确性、同时提供更高公平性和更合乎道德输出的模型。
研究背景
语言建模的成功在很大程度上归功于利用监督微调 (SFT) 和人类反馈强化学习 (RLHF) 技术。虽然这些方法在提高语言模型在特定任务上的性能方面显示出有希望的结果,但它们也存在明显的局限性。SFT 依赖于人工注释的数据和正面评价的模型生成来微调预训练的语言模型。然而,这种方法在很大程度上依赖于标记数据的可用性,这可能需要大量资金和时间投入。此外,仅依赖正面评价的数据可能会限制模型识别和纠正负面属性或错误的能力,从而降低其对新的和未见过数据的泛化能力。相比之下,RLHF 能够从所有数据中学习,而不管反馈评级如何。尽管如此,这种方法需要学习一个奖励函数,该奖励函数可能会出现偏差和不完善。此外,强化学习算法的优化具有挑战性,在应用中存在重大困难。
研究方法
在这项工作中,我们旨在通过结合 SFT 和 RLHF 的优势来克服它们的局限性,同时无需借助强化学习。我们的关键思想是人类能够从以比较形式呈现的丰富而详细的反馈中学习。我们的假设是,通过将语言模型置于一系列与反馈配对的模型输出的条件下并相应地对其进行训练,它们可以学会识别和纠正错误和负面属性。
研究创新
此外,先前的研究强调了预训练语言模型在上下文学习和指令微调方面的功效。在此基础上,我们引入了一种新颖的方法:将所有人类反馈转换为序列,然后对模型进行微调以理解和有效地利用此类反馈。具体来说,我们建议微调模型以预测输出,同时以一个或多个模型输出及其与其他输出的比较形式的相应反馈为条件。
实质上,我们的方法通过对模型进行微调,使其在考虑一个或多个模型生成的输出及其相关反馈(以与其他输出的比较形式呈现)的情况下生成输出。在训练阶段,模型会收到诸如“糟糕”和“好”之类的反馈表达。然后,它被赋予预测与反馈更紧密一致的输出的任务,例如:“你如何向 6 岁的孩子解释神经网络?糟糕的:{一个糟糕的答案} 好:{一个极好的答案}。”此外,我们的框架允许集成自然语言反馈,例如“{一个糟糕的答案} 与 {一个极好的答案} 相比,是一个不太好的答案”,这不仅告知模型偏好,还提供了额外的特定于任务的指导。在推理时,当给出“好”的正面反馈时,模型会被引导生成所需的输出,从而确保更好的行为。
研究结果
我们对提出的方法在摘要和对话任务领域进行了全面评估,结果表明与 SFT 及其各种迭代以及 RLHF 相比,在自动评估和人类评估中均有显着性能提升。
研究意义
我们的主要贡献有两个:(a)我们引入了一种新颖的学习框架,称为 CoH,它有效地利用所有可用的反馈数据来提高模型性能,而无需依赖 RLHF。值得注意的是,我们的方法 CoH 保持与预训练相同的训练目标,使其易于训练且易于扩展;(b)我们进行了广泛的实验,以展示我们的方法与现有基线(包括最先进的 RLHF 方法)相比的有效性。
研究局限性
尽管我们的方法在摘要和对话任务上取得了有希望的结果,但仍有一些局限性需要考虑。首先,我们的方法依赖于人类反馈的可用性。如果可用的反馈数量有限或质量不高,则可能会影响模型的性能。其次,我们的方法在计算上可能很昂贵,尤其是在处理大型数据集时。最后,我们的方法可能难以推广到其他类型的任务,例如机器翻译或问答。
未来研究方向
在未来,我们将探索以下几个方向来改进我们的方法:(1)研究如何利用少量的人类反馈来提高模型的性能。(2)研究如何降低方法的计算成本,使其能够处理大型数据集。(3)研究如何将方法推广到其他类型的任务,例如机器翻译或问答。
总结
在本文中,我们提出了一种新颖的学习框架,称为 CoH,它可以有效地利用所有可用的反馈数据来提高语言模型的性能。我们的方法在摘要和对话任务上取得了有希望的结果,我们希望它能激发未来的研究,以进一步提高语言模型的性能。
参考文献
[1] Hao Liu, Carmelo Sferrazza, Pieter Abbeel. Chain of Hindsight: Aligning Language Models with Feedback. arXiv preprint arXiv:2302.02676, 2023.
[2] Ming-Wei Chang, Samuel Bowman, Sara Hooker, Erica Bowman. Learning to Rank from Human Feedback: A Case Study in Summarization. arXiv preprint arXiv:2204.05816, 2022.
[3] Yuntao Bai, Zhun Liu, Lifu Huang, Wenhui Wang, Huan Wang, Furu Wei, Xiao Chen. Prompt-based Learning for Few-shot Text Classification. arXiv preprint arXiv:2204.02766, 2022.