教授大型语言模型表达自信心：SaySelf

摘要

大型语言模型（LLMs）经常会生成不准确或虚构的信息，并且通常在面对陌生问题时无法表达其不确定性，这限制了它们的广泛应用。以往的工作通过直接或自一致提示，或构建特定数据集进行监督微调来引导LLMs表达自信心。基于提示的方法表现较差，而基于训练的方法仅限于二进制或不准确的群体级别的置信度估计。在这项工作中，我们提出了先进的SaySelf训练框架，教会LLMs表达更准确细粒度的置信度估计。此外，除了置信度分数，SaySelf还引导LLMs生成自我反思的论证，清晰地识别其参数知识中的差距并解释其不确定性。这是通过使用LLMs自动总结特定知识中的不确定性的自然语言实现的。总结是基于对多个抽样推理链中的不一致性的分析，并利用得到的数据进行监督微调。此外，我们使用精心设计的奖励函数进行强化学习，来校准置信度估计，激励LLMs提供准确、高置信度的预测，并惩罚错误输出中的过度自信。在内部分布和外部分布的数据集上的实验结果证明了SaySelf在减少置信度校准误差和保持任务性能方面的有效性。我们展示了生成的自我反思论证是合理的，并且可以进一步提高校准性能。

引言

大型语言模型（LLMs）在推理和生成有效回答方面展现出了显著的能力，然而它们经常生成不受其训练数据或输入支持的信息（即幻觉），并且通常在面对陌生问题时不愿意表达其不确定性。因此，准确获取LLMs的可靠置信度估计至关重要。以往的工作主要包括基于提示和基于训练的方法来引导LLMs表达置信度。基于提示的方法使用特定提示来生成置信度分数，或者多次提示LLMs生成答案，并使用一致性水平作为置信度指标，但这些方法在置信度校准性能上表现较差或会导致额外的推理延迟。基于训练的方法构建了用于微调的专门数据集，鼓励LLMs表达不确定性。然而，这些方法经常提供次优或二进制的置信度估计，无法准确反映模型的置信度水平。在这项工作中，我们提出SaySelf，一种训练框架，用于教导LLMs生成更准确和细粒度的置信度估计。重要的是，SaySelf不仅限于以往的置信度引导，还使LLMs能够生成自我反思的论证，指出其知识差距并解释其置信度估计。我们通过使用LLMs自动总结多个抽样推理链中的不一致性来实现这一目标，并以第一人称的自然语言表达特定知识的不确定性。为了实现准确的置信度估计，我们使用精心设计的奖励函数进行强化学习，激励LLMs生成准确、高置信度的预测，并惩罚错误输出### SaySelf框架

SaySelf框架由两个关键阶段组成：监督微调和来自任务监督的强化学习。

监督微调阶段

在监督微调阶段，我们的目标是构建一个包含问题、推理链、自我反思论证和置信度估计的监督数据集D. ��我们通过从LLMs中抽样多个推理链来构建此数据集。然后，我们对抽样的推理链进行聚类，选择每个簇中的一个实例作为代表。为了得到置信度估计c，我们首先使用HotpotQA中的标注答案检查每个簇中的选定实例的正确性。然后，根据每个簇中的推理链的大小Sc计算置信度估计：c = round(Sc / N × 10)，其中Sc是推理链的大小，N是抽样次数。✅

为了得到自我反思论证r，我们指示LLMs仔细分析和比较所有选定的推理链，重点关注提供的知识事实的不一致性。然后，我们要求LLMs从第一人称的角度用自然语言总结「为什么LLMs不确定」。总结即是自我反思论证r。我们在附录A中提供了用于生成自我反思论证的提示。

通过监督微调，我们使用D对LLMs进行微调。目标函数如下：

max Θ Σ(q, s, r, c')∈D log P(s|q; Θ) + log P(r|s, q; Θ) + log P(c'|s, r, q; Θ)

其中Θ表示LLMs的参数，c’是置信度估计c的自然语言表达。

来自任务监督的强化学习阶段

由于监督微调的性质，模型往往会产生相同的置信度水平，例如正确答案的置信度较低，错误答案的置信度较高。为了解决这个问题，我们使用强化学习进一步校准LLMs的置信度估计，并鼓励模型生成更准确、区分度更高的值。在采样阶段，LLMs被要求生成答案、自我反思论证和置信度水平。为了优化模型，我们根据与标准答案的对比评估生成的答案，并设计了一个奖励函数。奖励函数考虑了答案的准确性和置信度。为了鼓励模型产生更多区分度的值，奖励函数具有二次输出。

我们使用Proximal Policy Optimization（PPO）算法对LLMs进行训练，根据定义的奖励函数进行优化。

实验结果

我们在多个数据集上进行了实验，包括HotpotQA、TruthfulQA、StrategyQA、FEVER、HaluEval和ParaRel。我们衡量了置信度校准性能、任务性能以及自我反思论证的准确性。

实验结果表明，SaySelf在减少置信度校准误差、提高置信度区分度和保持任务性能方面显著优于基线方法。与其他基线方法相比，SaySelf在各方面的表现都有显著提升。

结论

本文提出了SaySelf框架，用于从LLMs中获取更准确和细粒度的置信度估计和自我反思论证。SaySelf通过监督微调和基于任务的强化学习两个阶段实现。我们的实验结果验证了SaySelf在减少置信度校准误

摘要

引言

监督微调阶段

来自任务监督的强化学习阶段

实验结果

结论

发表评论 取消回复

发表评论取消回复