教会大语言模型表达自信：自我反思性解释的应用

摘要： 大型语言模型（LLM）在回答问题时，经常会生成不准确或捏造的信息，并且通常无法表明其置信度，这限制了它们的广泛应用。本文将介绍一种名为 SaySelf 的全新训练框架，它能够教会 LLM 表达更准确、更细粒度的置信度估计，并生成自我反思性解释，以明确识别其参数知识中的差距并解释其不确定性。

一、LLM 的困境：幻觉与不确定性

大型语言模型（LLM）虽然在推理和生成方面表现出色，但它们也经常会生成不准确或捏造的信息，我们称之为「幻觉」。更糟糕的是，当面对不熟悉的问题时，LLM 通常无法表达其不确定性。

「LLMs』 hallucination refers to instances where these models generate information that is not supported by their training data or the input provided.」

现有的 LLM 置信度获取方法主要分为基于提示和基于训练两种。基于提示的方法使用特定提示引导 LLM 生成置信度分数，或使用答案一致性作为置信度指标，但这些方法的校准性能较差，或会显著增加推理延迟。基于训练的方法则开发专门的数据集进行微调，鼓励 LLM 表达置信度，但这些方法通常只能提供次优或二元置信度估计，无法准确反映模型的置信度水平。

二、SaySelf：教会 LLM 表达自信

SaySelf 是一种训练框架，旨在教会 LLM 生成更准确、更细粒度的置信度估计，并生成自我反思性解释，以明确识别其参数知识中的差距并解释其不确定性。

2.1 监督微调：构建包含自我反思性解释的数据集

SaySelf 的第一步是构建一个包含自我反思性解释和置信度估计的模型特定数据集。

多重采样： 对于每个问题，SaySelf 会从 LLM 中采样多个推理链和答案。
聚类分析： 对采样的答案进行聚类，识别出具有代表性的答案簇，并从每个簇中随机选择一个答案。
置信度估计： 根据答案簇的大小计算置信度估计值。
自我反思性解释生成： 指导 GPT-4 分析和比较所有选定的答案，并从第一人称的角度总结 LLM 不确定的原因，生成自我反思性解释。

2.2 强化学习：校准置信度估计

为了进一步校准 LLM 的置信度估计，SaySelf 使用强化学习，并设计了一个奖励函数，鼓励模型对准确的答案给出高置信度，并惩罚对错误答案的过度自信。

三、SaySelf 的优势

实验结果表明，SaySelf 能够显著降低置信度校准误差，并保持任务性能。此外，生成的自我反思性解释能够有效地捕捉内部不确定性，并可以进一步提高校准性能。

四、未来展望

SaySelf 的研究成果有望对相关学术研究和现实应用产生积极影响，例如：

提高人工智能的可信度
指导 LLM 执行后续步骤，例如调用外部工具或提出澄清问题
推动主动学习算法的发展，增强 LLM 与人类的交互，促进持续学习

参考文献

[1] Xu, Tianyang, et al. “SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales.” arXiv preprint arXiv:2405.20974 (2024).

注意： 本文仅对原文进行了部分内容的概述，建议读者阅读原文以获取更全面、准确的信息。

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决大型语言模型（LLMs）在生成回答时存在的两个主要问题： 1. **生成不准确或编造信息**：大型语言模型在回答问题时经常会产生不准确或无中生有（hallucination）的信息。 2. **缺乏置信度指示**：这些模型通常在面对不熟悉的问题时，无法准确表达它们的不确定性或置信度。论文中提到，这些问题限制了大型语言模型的更广泛应用。为了解决这些问题，论文提出了一个名为SaySelf的框架，旨在教导LLMs生成更准确和细粒度的置信度估计，并通过自我反思的理由（self-reflective rationales）清晰地识别它们在参数知识方面的不足，并解释它们的不确定性。这是通过使用LLM自动以自然语言总结特定知识的不确定性来实现的，该总结基于对多个采样推理链的不一致性分析，然后利用生成的数据进行有监督的微调（fine-tuning）。此外，论文还采用了强化学习（reinforcement learning）和精心设计的奖励函数来校准置信度估计，激励LLMs提供准确、高置信度的预测，并对错误的输出过度自信进行惩罚。

Q: 有哪些相关研究？

A: 论文中提到了与大型语言模型（LLMs）相关的几个研究领域，包括： 1. **LLMs的幻觉（Hallucination）和不确定性表达**： – 研究了LLMs产生幻觉的原因。 – 开发了检测或减轻幻觉的方法。 – 探讨了LLMs在无法解决问题时不愿表达不确定性的问题。 2. **LLMs的置信度引出（Confidence Elicitation）**： – 提示（Prompting）基础方法：使用特定提示引导LLMs生成置信度分数，或使用答案的一致性作为置信度的指标。 – 训练（Training）基础方法：构建专门数据集进行有监督的微调，鼓励LLMs表达不确定性。 3. **LLMs的可解释性（Explainability）**： – 研究了为LLMs生成自然语言解释的方法，以解释模型的决策过程。 – 探讨了使用思维链（Chain-of-Thought）作为自然语言解释的方法。具体地，论文中提到了一些具体的工作，例如： – **幻觉和不确定性**：研究了LLMs在处理未知问题时倾向于编造信息的问题，并追溯到了监督指令微调（SFT）阶段的问题。 – **置信度引出**：研究了如何为包含多个标记的LLM生成答案的准确置信度估计，包括提示基础和训练基础的方法。 – **可解释性**：研究了如何为LLMs提供自然语言解释，包括训练LLMs使用真实标签和人类注释的解释作为有效的增强监督。这些相关研究为SaySelf框架的开发提供了背景和基础，帮助解决了LLMs在置信度估计和自我反思理由生成方面的挑战。

Q: 论文如何解决这个问题？

A: 论文提出了一个名为SaySelf的框架，通过以下两个主要阶段来解决大型语言模型（LLMs）在生成回答时的准确性和置信度表达问题： ### 1. 有监督的微调（Supervised Fine-Tuning）在这个阶段，目标是构建一个特定于模型的数据集，其中包含自我反思的理由（self-reflective rationales）和置信度估计。具体步骤包括： – **多次采样**：对于每个问题，从LLMs采样多个推理链。 – **聚类**：基于语义相似性对采样响应进行聚类，并保留每个聚类的代表性实例。 – **置信度估计**：根据代表性响应的一致性计算置信度估计值。 – **自我反思理由生成**：使用GPT-4分析选定实例，并从第一人称的角度以自然语言总结特定知识的不确定性。 ### 2. 基于任务监督的强化学习（Reinforcement Learning from Task Supervision）为了进一步提高置信度估计的准确性并鼓励模型产生更准确和差异化的值，使用强化学习进一步校准LLMs的细粒度置信度估计。具体步骤包括： – **采样**：在采样阶段，LLMs被提示生成回答、自我反思理由和置信度级别。 – **奖励函数**：设计了一个考虑答案准确性和模型置信度的奖励函数，以鼓励模型在正确样本中保持高置信度，同时对错误响应中的过度自信进行惩罚。 – **优化**：使用近端策略优化（PPO）算法根据定义的奖励函数训练LLMs。通过这两个阶段，SaySelf框架旨在教导LLMs生成更准确和细粒度的置信度估计，并提供自我反思的理由，以清晰地识别它们在参数知识方面的不足，并解释它们的不确定性。实验结果表明，SaySelf在减少置信度校准误差和保持任务性能方面是有效的，并且生成的自我反思理由是合理的，可以进一步有助于校准。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估SaySelf框架的有效性： 1. **评估数据集**：使用了多个知识密集型的问答任务数据集进行评估，包括： – HotpotQA：多跳推理问答对数据集。 – TruthfulQA：测试模型是否生成真实答案的数据集。 – StrategyQA：需要多跳推理的是非题数据集。 – FEVER：评估模型对Wikipedia文档中陈述的事实性验证能力的数据集。 – HaluEval：评估模型幻觉率的数据集。 – ParaRel：衡量模型理解释义关系事实性能的数据集。 2. **评估指标**：从三个方面衡量了不同方法的表现： – 置信度校准性能：使用ECE（预期校准误差）和AUROC（曲线下面积）指标。 – 任务性能：在数据集的测试集上测量准确性。 – 生成的自我反思理由的忠实度：通过采样多个响应并聚类，然后使用熟练的LLM（GPT-4）来评估提供的理由是否能够忠实地表达采样响应中展示的不确定性。 3. **基线比较**：与以下方法进行了比较： – 直接提示置信度提取（DP）。 – 基于自我一致性的置信度估计（SC）。 – R-Tuning：直接训练LLMs生成二元置信度估计。 – 基于分组的置信度估计进行校准训练（GCE）。 4. **主要实验结果**： – SaySelf在减少校准误差（ECE）和提高正确与错误响应之间置信度区分（AUROC）方面显著优于所有基线方法。 – 在任务性能方面，SaySelf能够总体上保持原始任务性能，表明置信度估计的任务不与原始任务冲突。 5. **自我反思理由的忠实度评估**： – SaySelf能够生成更合理的自我反思理由，这些理由通过多个采样响应中的不一致性来指示LLMs内部的不确定性。 6. **消融研究**：为了验证SaySelf中的设计选择，进行了消融研究，包括： – 没有强化学习的SaySelf（w/o RL）。 – 没有自我反思理由和置信度估计的SaySelf（w/o R & CE）。 – 没有自我反思理由的SaySelf（w/o R. ��。 – 验证了定义的奖励函数的有效性。 7. **案例研究**：通过案例研究来更好地理解SaySelf方法，选择了两个问题，并提示通过SaySelf训练的LLMs生成自我反思理由。这些实验结果表明，SaySelf框架能够有效地提高LLMs的置信度估计准确性，并生成有助于提高系统可靠性的自我反思理由。✅

Q: 有什么可以进一步探索的点？

A: 论文提出的SaySelf框架在提高大型语言模型（LLMs）置信度估计的准确性和生成自我反思理由方面取得了显著成果。然而，仍有许多潜在的研究方向可以进一步探索： 1. **更复杂的奖励函数**：当前的奖励函数可能还有改进的空间。研究更复杂的奖励机制，考虑更多的因素，如置信度分布的平滑性或模型在面对不同类型的问题时的行为。 2. **更广泛的数据集**：尽管SaySelf在多个数据集上进行了测试，但扩展到更多样化的数据集，特别是那些涉及不同领域或语言的数据集，可能会揭示新的挑战和改进机会。 3. **模型的可解释性**：虽然SaySelf生成了自我反思理由，但进一步提高模型的可解释性，例如通过可视化技术或更详细的解释，可能会帮助用户更好地理解模型的决策过程。 4. **模型的健壮性**：研究SaySelf在面对对抗性攻击或数据污染时的健壮性，并开发相应的防御机制。 5. **实时应用**：探索SaySelf在实时应用中的可行性，例如聊天机器人或在线助手，以及如何优化模型以满足实时性能要求。 6. **用户研究**：进行用户研究以了解人们如何感知和解释由SaySelf生成的置信度估计和自我反思理由，以及这些信息如何影响用户对模型的信任和满意度。 7. **多模态输入**：将SaySelf扩展到处理多模态输入（如图像、视频和文本），这可能会增加模型需要处理的信息复杂性。 8. **跨领域适应性**：研究SaySelf在不同领域（如医疗、法律或金融）的适应性和如何调整框架以满足特定领域的需求。 9. **模型的自我改进**：探索如何利用自我反思理由来指导模型的自我改进，例如通过主动学习或增强学习策略。 10. **伦理和偏见**：研究SaySelf在处理敏感话题时的伦理问题和潜在偏见，并开发减轻这些问题的方法。这些探索点可以帮助进一步推动LLMs在置信度估计和可解释性方面的发展，并提高它们在各种应用中的实用性和可靠性。

Q: 总结一下论文的主要内容

A: 这篇论文的核心内容是提出了一个名为SaySelf的框架，旨在解决大型语言模型（LLMs）在生成回答时存在的两个主要问题：生成不准确或编造的信息，以及缺乏对不确定性的表达。SaySelf框架通过以下两个主要阶段来提高LLMs的置信度估计准确性，并生成自我反思的理由： 1. **有监督的微调（Supervised Fine-Tuning）**： – 通过多次采样LLMs生成的推理链，并对这些响应进行聚类，挑选出代表性的响应。 – 基于聚类结果，计算置信度估计，并利用GPT-4分析不一致性，生成自我反思理由。 – 使用这些数据进行有监督的微调，训练LLMs生成更准确的置信度估计和自我反思理由。 2. **基于任务监督的强化学习（Reinforcement Learning from Task Supervision）**： – 使用强化学习进一步校准LLMs的置信度估计，通过设计一个奖励函数来激励模型在正确答案上给出高置信度，同时对错误答案的过度自信进行惩罚。 – 采用近端策略优化（PPO）算法进行训练。论文通过一系列实验验证了SaySelf框架的有效性，包括在多个知识密集型问答任务数据集上评估置信度校准性能、任务性能和自我反思理由的忠实度。实验结果表明，SaySelf能够在减少置信度校准误差的同时保持任务性能，并生成合理的自我反思理由。此外，论文还进行了消融研究来验证SaySelf各个组成部分的有效性，并提供了案例研究来展示SaySelf生成的自我反思理由如何捕捉LLMs内部的不确定性。最后，论文讨论了SaySelf对学术研究和实际应用的潜在影响，例如提高AI系统的可信度、指导LLMs进行更好的交互和性能提升，以及在训练协议中促进LLMs与人类的持续学习。论文的代码也已经公开，供进一步研究和应用。