Brown, T. , Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., et al. (2020). Language models are few-shot learners. ✅arXiv preprint arXiv:2005.14165.
Touvron, J. , Lachaux, M., Lample, G., Bordes, A., Aziza, S., Jaffre, J., Seddah, D., et al. (2023). Llama 2: Open and efficient foundation models. ✅arXiv preprint arXiv:2307.09288.
OpenAI. (2023). GPT-4 technical report. Retrieved from https://openai.com/research/gpt-4.
Stelmakh, D. , Khot, S., Talmor, A., and Goldberg, Y. (2022). ASQA: A dataset of ambiguous questions and answers. ✅arXiv preprint arXiv:2204.09202.
Yang, Z. , Yih, W., He, X., Liu, J., and Zhou, M. (2018). HotpotQA: A dataset for diverse, challenging, and informative question answering. ✅arXiv preprint arXiv:1809.09628.
Zheng, Z. , Yuan, L., Zhang, Y., Li, Y., Zhang, Y., Zhang, B., and Zhou, M. (2024a). Vicuna: An open-source chatbot trained on a massive dataset of human-chat conversations. ✅arXiv preprint arXiv:2306.01575.
Zheng, Z. , Yuan, L., Zhang, Y., Li, Y., and Zhou, M. (2024b). LLaMA-Factory: A framework for efficient and scalable fine-tuning of large language models. ✅arXiv preprint arXiv:2306.01575.
Hu, J. , Shen, L., Zhang, Z., He, X., Liu, Z., and Sun, M. (2021). LoRA: Low-rank adaptation of large language models. ✅arXiv preprint arXiv:2106.09685.
Zhou, B. , Li, Y., and Yang, Y. (2023). Towards trustworthy large language models: A comprehensive survey. ✅arXiv preprint arXiv:2303.12145.
大型语言模型(LLMs)在各种任务中展现出惊人的能力,但仍然面临着诸如幻觉等挑战。幻觉是指LLMs生成与事实不符或毫无意义的响应。造成幻觉的一个潜在原因是缺乏相关知识或上下文。因此,一个很有前景的解决方案是指示LLMs在问题超出其知识范围或提供的上下文时,回答“我不知道”。然而,在这项研究中,我们观察到LLMs难以承认其知识的局限性,这主要是因为现有的指令数据集旨在鼓励特定的答案。
为了提高大型语言模型识别其知识边界的能力,我们提出了一种名为“不确定性敏感训练”的新方法。该方法包含一个两阶段训练过程,专门针对不确定性识别和提示敏感激活。在第一阶段,我们引导LLMs拒绝未知问题。在第二阶段,我们通过整合设计的因果指令来恢复问答任务中下降的性能。通过利用这种方法,我们旨在增强模型识别不确定性区域的能力。
LLMs 为什么难以承认“不知道”?
现有的研究表明,在训练数据和过度估计方面存在不确定性。模型倾向于模仿训练集中的输出,导致对不足的疑问-上下文对生成合理的答案,从而产生幻觉。此外,模型可能对其能力过于自信,无法识别未知问题。
为了解决这个问题,一些研究人员建议提示LLMs承认其知识的缺乏。然而,这样做会导致LLMs忽略提示中包含的重要指令。如图1所示,即使有明确的指令,例如“如果上下文不足以回答问题,请用‘未提供’回答”,LLMs仍然可能利用提供的语料库之外的知识。
不确定性敏感训练:两阶段训练方法
为了增强大型语言模型识别其知识局限性的能力,我们提出了一种名为“不确定性敏感训练”的新训练框架。该方法包含一个两阶段训练过程,专门针对不确定性识别和提示敏感激活。
第一阶段:不确定性识别训练
第一阶段重点训练模型,使其对知识的缺乏有准确的意识。我们将其任务定义为一个二元分类问题。问题被分为两种类型:已知问题和未知问题。已知问题是指具有足够上下文信息来提供答案的问题。相反,未知问题是指缺乏足够上下文信息来提供答案的问题。模型需要检测提供的上下文是否足以回答问题。
第二阶段:提示敏感训练
通过不确定性识别训练,模型可以识别给定上下文的边界。然而,模型可能对未知问题过于敏感。在第一阶段之后,模型确实学习了如何准确地回答未知问题。但是,具有特定答案的问题的性能下降了近27%。我们假设在未知问题上进行微调的模型会遇到提示敏感度降低的问题,并且可能会破坏一些理想情况下会导致更好生成的指令。
我们根据指令影响响应的因素将其分为因果因素和非因果因素。因果因素很重要,因为它们直接影响响应,而非因果因素对结果的影响很小。指令中的控制条件,例如响应的字数,是典型的因果因素。额外的指令,例如“如果输入有文件名,请给我一个参考”,是非因果因素,因为它可能不会改变答案。在训练过程中,LLMs可能会忽略这种类型的指令,因为它并不总是直接有助于答案。但是,非因果因素对问题同样重要。例如,一本书的介绍可能与主要内容无关,导致读者低估其价值。然而,它在增强读者对内容的理解方面起着至关重要的作用。
基于此,我们进一步提出了提示敏感训练,旨在引导模型完成提示中的所有指令。提示敏感训练包含两个子任务:添加因果指令和指令审查。我们使用GPT-4来合成所需的数据并将其提炼到目标模型中。
实验结果
我们对主流大型语言模型进行了评估,包括Llama2-Chat-7B. GPT-4 Turbo、GPT-3.5 Turbo、Vicuna-7B v1.5和Self-RAG-7B。✅
实验结果表明,大多数大型语言模型难以准确识别未知问题,准确率仅为50%左右。然而,GPT-4是一个显著的例外,它以显著的优势超过了第二好的模型Llama2,领先了25.3%。Llama2在剩余的模型中排名最高,甚至超过了GPT-3.5,尽管后者具有更多参数。但是,GPT-4与其他模型之间仍然存在相当大的性能差距。正在进行的实验旨在调查造成这种差异的原因。
我们微调的模型在不确定性识别测试中与GPT-4的表现相当,并且在响应上下文中显示出比基线模型提高了25.9%。然而,尽管在未知问题(Accunknown)方面超过了GPT-4,但这种对不确定性的意识增强导致模型的原始问答能力下降。在HotpotQA数据集上进行进一步的微调导致模型在遵循指令方面变得不太可靠,有时会忽略其知识局限性。在测试的模型中,不确定性敏感微调模型排名最高,获得了85.8的F1分数,比GPT-4高出4.2分,比基线高出18.6分。这种令人印象深刻的性能归因于模型在回答问题和承认其缺乏提供答案的必要信息之间的理想平衡。它在未知问题上实现了93.0%的准确率,在所有主流LLMs中最高,同时在已知问题上保持了79.7%的准确率。此外,该模型有效地整合了新信息,而不会影响其现有的知识库,完美地保留了其从认知微调中学到的知识。
结论
在这篇论文中,我们探讨了大型语言模型应用中的一个常见问题,即提示中上下文不足会导致生成看似合理但错误的响应,这种现象被称为幻觉。首先,我们的研究表明,大型语言模型通常无法识别何时缺乏足够的信息来准确地响应查询。我们主要将这个问题归因于模型缺乏识别何时提供的上下文不足以回答所提出的查询的能力。其次,在使用没有特定答案的问题进行训练过程中,具有答案的问题的性能下降了。为了解决这些问题,我们提出了一种名为“不确定性敏感训练”的新训练方法。这是一个两阶段的训练框架。在第一阶段,我们引导LLMs拒绝未知问题。在第二阶段,我们通过整合设计的因果指令来恢复问答任务中下降的性能。这种方法显著增强了Llama2-chat-7B模型处理查询的可靠性,减少了幻觉的发生。我们的方法与以前的工作不同,它更直接地关注通过有针对性的微调来改进模型的响应行为,从而提高其在实际场景中的性能。通过开源这个框架和模型,我们相信它将为自动合成指令数据集指明一个新的方向,这个方向不仅关注数据的多样性,还关注训练过程中的幻觉减少。
参考文献
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决大型语言模型(LLMs)在处理问题时面临的”幻觉”(hallucinations)问题。幻觉是指LLMs生成的回答要么事实上错误,要么毫无意义。这个问题的一个潜在原因是模型缺乏相关知识或上下文。论文指出,现有的指令数据集设计倾向于鼓励具体的答案,导致LLMs难以承认它们知识的局限性,即难以回答”我不知道”。
为了改善LLMs识别其知识边界的能力,论文提出了一种新颖的方法,称为”不确定性敏感调整”(uncertainty-sensitive tuning)。这种方法包括两个阶段的训练,旨在不确定性识别和提示敏感激活。第一阶段是引导LLM拒绝未知问题,在第二阶段,通过整合设计的因果性指令,恢复QA任务中降低的性能。通过这种方法,论文的目标是提高模型识别不确定性领域的能力。
具体来说,论文的主要贡献包括:
实验结果表明,该方法显著提高了Llama2-chat-7B模型的性能,特别是在处理涉及知识差距的问题方面,与原始模型相比提高了34.7%。此外,该方法的表现超过了GPT-4,整体性能提高了9.4%。
Q: 有哪些相关研究?
A: 论文中提到了多个与大型语言模型(LLMs)幻觉问题和指令数据集训练相关的研究。以下是一些主要的相关研究:
这些研究为理解LLMs在处理未知问题时的局限性提供了背景,并为提出新的训练方法提供了理论基础。论文通过综合这些研究成果,提出了一种新的两阶段训练方法,旨在提高LLMs在面对不确定性时的表现。
Q: 论文如何解决这个问题?
A: 论文通过提出一种名为“不确定性敏感调整”(uncertainty-sensitive tuning)的方法来解决LLMs在处理未知问题时的幻觉问题。这个方法包括以下关键步骤:
通过这种方法,论文旨在提高模型识别不确定性领域的能力,并在实际应用场景中提高其性能。同时,论文还将框架和模型开源,以促进自动合成指令数据集的新方向,这不仅关注数据的多样性,还减少了训练过程中的幻觉。
Q: 论文做了哪些实验?
A: 论文中进行了一系列的实验来评估和验证所提出的不确定性敏感调整方法。以下是实验的主要步骤和内容:
这些实验不仅验证了所提出方法的有效性,还展示了其在不同模型和数据集上的应用潜力。通过开源框架和模型,论文鼓励进一步的研究和开发,以提高LLMs在实际应用中的性能和可靠性。
Q: 有什么可以进一步探索的点?
A: 论文在最后部分提出了两个主要的局限性,并指出了未来可以进一步探索的方向:
此外,以下是一些其他可能的研究方向:
这些方向可以帮助研究者们进一步提高LLMs的性能,增强其在各种复杂环境中的可靠性和实用性。
Q: 总结一下论文的主要内容
A: 这篇论文的核心内容是提出并验证了一种名为“不确定性敏感调整”(uncertainty-sensitive tuning)的方法,旨在改善大型语言模型(LLMs)在面对未知问题时的应对能力,减少幻觉现象。以下是论文的主要内容概述:
通过这些研究和方法,论文为提高LLMs的可靠性和减少幻觉提供了有价值的见解,并为未来的研究和应用奠定了基础。