教授大型语言模型表达自信心:SaySelf

摘要

大型语言模型(LLMs)经常会生成不准确或虚构的信息,并且通常在面对陌生问题时无法表达其不确定性,这限制了它们的广泛应用。以往的工作通过直接或自一致提示,或构建特定数据集进行监督微调来引导LLMs表达自信心。基于提示的方法表现较差,而基于训练的方法仅限于二进制或不准确的群体级别的置信度估计。在这项工作中,我们提出了先进的SaySelf训练框架,教会LLMs表达更准确细粒度的置信度估计。此外,除了置信度分数,SaySelf还引导LLMs生成自我反思的论证,清晰地识别其参数知识中的差距并解释其不确定性。这是通过使用LLMs自动总结特定知识中的不确定性的自然语言实现的。总结是基于对多个抽样推理链中的不一致性的分析,并利用得到的数据进行监督微调。此外,我们使用精心设计的奖励函数进行强化学习,来校准置信度估计,激励LLMs提供准确、高置信度的预测,并惩罚错误输出中的过度自信。在内部分布和外部分布的数据集上的实验结果证明了SaySelf在减少置信度校准误差和保持任务性能方面的有效性。我们展示了生成的自我反思论证是合理的,并且可以进一步提高校准性能。

引言

大型语言模型(LLMs)在推理和生成有效回答方面展现出了显著的能力,然而它们经常生成不受其训练数据或输入支持的信息(即幻觉),并且通常在面对陌生问题时不愿意表达其不确定性。因此,准确获取LLMs的可靠置信度估计至关重要。以往的工作主要包括基于提示和基于训练的方法来引导LLMs表达置信度。基于提示的方法使用特定提示来生成置信度分数,或者多次提示LLMs生成答案,并使用一致性水平作为置信度指标,但这些方法在置信度校准性能上表现较差或会导致额外的推理延迟。基于训练的方法构建了用于微调的专门数据集,鼓励LLMs表达不确定性。然而,这些方法经常提供次优或二进制的置信度估计,无法准确反映模型的置信度水平。在这项工作中,我们提出SaySelf,一种训练框架,用于教导LLMs生成更准确和细粒度的置信度估计。重要的是,SaySelf不仅限于以往的置信度引导,还使LLMs能够生成自我反思的论证,指出其知识差距并解释其置信度估计。我们通过使用LLMs自动总结多个抽样推理链中的不一致性来实现这一目标,并以第一人称的自然语言表达特定知识的不确定性。为了实现准确的置信度估计,我们使用精心设计的奖励函数进行强化学习,激励LLMs生成准确、高置信度的预测,并惩罚错误输出### SaySelf框架

SaySelf框架由两个关键阶段组成:监督微调来自任务监督的强化学习

监督微调阶段

在监督微调阶段,我们的目标是构建一个包含问题、推理链、自我反思论证和置信度估计的监督数据集D。我们通过从LLMs中抽样多个推理链来构建此数据集。然后,我们对抽样的推理链进行聚类,选择每个簇中的一个实例作为代表。为了得到置信度估计c,我们首先使用HotpotQA中的标注答案检查每个簇中的选定实例的正确性。然后,根据每个簇中的推理链的大小Sc计算置信度估计:c = round(Sc / N × 10),其中Sc是推理链的大小,N是抽样次数。

为了得到自我反思论证r,我们指示LLMs仔细分析和比较所有选定的推理链,重点关注提供的知识事实的不一致性。然后,我们要求LLMs从第一人称的角度用自然语言总结“为什么LLMs不确定”。总结即是自我反思论证r。我们在附录A中提供了用于生成自我反思论证的提示。

通过监督微调,我们使用D对LLMs进行微调。目标函数如下:

max Θ Σ(q, s, r, c')∈D log P(s|q; Θ) + log P(r|s, q; Θ) + log P(c'|s, r, q; Θ)

其中Θ表示LLMs的参数,c'是置信度估计c的自然语言表达。

来自任务监督的强化学习阶段

由于监督微调的性质,模型往往会产生相同的置信度水平,例如正确答案的置信度较低,错误答案的置信度较高。为了解决这个问题,我们使用强化学习进一步校准LLMs的置信度估计,并鼓励模型生成更准确、区分度更高的值。在采样阶段,LLMs被要求生成答案、自我反思论证和置信度水平。为了优化模型,我们根据与标准答案的对比评估生成的答案,并设计了一个奖励函数。奖励函数考虑了答案的准确性和置信度。为了鼓励模型产生更多区分度的值,奖励函数具有二次输出。

我们使用Proximal Policy Optimization(PPO)算法对LLMs进行训练,根据定义的奖励函数进行优化。

实验结果

我们在多个数据集上进行了实验,包括HotpotQA、TruthfulQA、StrategyQA、FEVER、HaluEval和ParaRel。我们衡量了置信度校准性能、任务性能以及自我反思论证的准确性。

实验结果表明,SaySelf在减少置信度校准误差、提高置信度区分度和保持任务性能方面显著优于基线方法。与其他基线方法相比,SaySelf在各方面的表现都有显著提升。

结论

本文提出了SaySelf框架,用于从LLMs中获取更准确和细粒度的置信度估计和自我反思论证。SaySelf通过监督微调和基于任务的强化学习两个阶段实现。我们的实验结果验证了SaySelf在减少置信度校准误

0 0 投票数
Article Rating
订阅评论
提醒
0 评论
最旧
最新 最多投票
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x