[5] Kadavath, S. , et al. “Language Models are Better at Estimating Their Own Uncertainty Than We Thought.” arXiv preprint arXiv:2302.02661 (2023).✅
[6] Tian, Y. , et al. “Prompting for Calibration in Language Models.” arXiv preprint arXiv:2303.13250 (2023).✅
[7] Xiong, W. , et al. “Language Models Can’t Tell You What They Don’t Know: On the Limitations of Zero-Shot Uncertainty Estimation.” arXiv preprint arXiv:2305.15687 (2023).✅
[8] Lin, Z. , et al. “Calibrating Language Models for Uncertainty Estimation.” arXiv preprint arXiv:2107.08632 (2021).✅
[9] Zhang, S. , et al. “Learning to Estimate Uncertainty in Language Models.” arXiv preprint arXiv:2109.08850 (2021).✅
[10] Burns, C. , et al. “Truthfulness in Language Models: A Bayesian Perspective.” arXiv preprint arXiv:2304.09300 (2023).✅
[11] Azaria, A. , and M. Mitchell. “TruthfulQA: Measuring How Well Language Models Can Identify Truthful Claims.” arXiv preprint arXiv:2203.14028 (2022).✅
[12] Kuhn, J. , et al. “Semantic Clustering for Improved Calibration of Large Language Models.” arXiv preprint arXiv:2304.01763 (2023).✅
大型语言模型(LLM)正在改变世界,从生成引人入胜的文本到回答复杂问题,它们的能力令人惊叹。然而,在将 LLM 应用于高风险领域时,我们必须了解何时可以信任它们的预测。LLM 能否准确地表达其输出的正确性,是决定它们是否能真正造福社会并可靠地用于决策的关键问题。
目前,关于 LLM 是否能准确地表达不确定性,还没有达成共识。一些研究认为,通过精心设计的提示,高性能 LLM 可以直接产生校准良好的不确定性估计 [25, 51];而另一些研究则认为,LLM 在预测时仍然过于自信 [59, 60]。由于语言模型的自由生成文本存在各种语言差异,这些差异无法在训练过程中被完全考虑,因此 LLM 的不确定性估计任务变得更加复杂。LLM 从业者面临着选择哪种估计方法的挑战。
黑盒与白盒:两种截然不同的方法
LLM 的不确定性估计方法可以分为黑盒和白盒两种。黑盒方法不需要训练,可以用于像 GPT-4 [1] 或 Gemini [48] 这样的封闭源模型。而白盒方法需要在校准数据集上训练参数。随着强大的开源模型,如 LLaMA [53] 或 Mistral [24] 的出现,更有效的白盒方法变得更加容易获得。
细致研究:揭示 LLM 不确定性校准的真相
本文深入研究了 LLM 的不确定性校准,并得出了有助于解决关于良好校准所需干预措施的争论的结论。我们重点关注以下问题:
打破神话:提示本身不足以实现良好校准
我们首先发现,为了获得更可靠的不确定性估计,需要进行微调,这比使用基线方法更快、更可靠,而且只需要相对较少的额外参数。微调后得到的不确定性还可以泛化到新的问题类型和任务,而不仅仅局限于微调数据集中的内容。
微调的必要性:利用标记示例提高 LLM 的“知其不知”能力
与之前的工作不同,我们首先展示了当前的零样本黑盒方法在开放式场景中效率低下或成本过高(第 4 节)。然后,我们展示了如何对语言模型进行微调以实现校准,探索了最有效的参数化方式(例如线性探测器与 LoRA)以及获得良好泛化所需的训练数据量(第 5 节)。为了测试泛化能力,我们评估了模型在与校准数据格式类似的问题以及测试对显著分布变化鲁棒性的问题上的不确定性估计。
深层机制:揭秘 LLM 不确定性估计的内在原理
我们进一步研究了使 LLM 能够估计自身不确定性的机制,发现许多模型可以作为通用的不确定性估计器,不仅适用于它们自身的不确定性,也适用于其他模型的不确定性(第 6 节)。
人机协作:利用 LLM 不确定性提升决策效率
除了离线评估,如果语言模型要对社会产生广泛的影响,那么它将通过帮助人类决策来实现。我们进行了一项用户研究,展示了 LLM 不确定性如何影响人机协作(第 7 节)。
结论:微调是提高 LLM 不确定性估计的关键
我们的研究表明,监督学习方法,即学习预测模型的正确性,可以显著优于基线方法,只需 1000 个标记示例即可。通过 LoRA 更新模型特征并使用语言提示是取得良好性能的关键。
未来展望:探索更强大的 LLM 不确定性估计方法
未来还有许多令人兴奋的研究方向。目前,微调依赖于两个独立的模型,一个用于问答,另一个用于不确定性估计。理想情况下,我们希望有一个单一的模型,能够在不切换模型权重的情况下生成问题和不确定性。我们预计,一种不确定性感知的预训练或对齐阶段可能变得至关重要,但在保持基础语言建模能力的同时实现这种过程将带来一个具有挑战性的在线学习问题,其中正确性标签在训练过程中会不断演变。
除了提高语言模型的安全性和实用性,高质量的不确定性还可以用于主动学习程序,例如用于样本高效微调 [39],其中数据点根据预测效用和模型的不确定性进行选择,以平衡探索与利用之间的权衡。不确定性估计还可以用于提高语言模型的真实性,通过提高模型对其有信心的生成(判断可能正确的生成)的可能性,例如使用对齐程序(例如 RLHF、DPO)和奖励函数,鼓励自信的生成 [50]。
最终目标:让 LLM 成为人类决策的可靠伙伴
我们还展示了如何利用不确定性信息来影响人类决策。最终,LLM 将通过决策来影响社会,为了做出合理的决策,我们需要不确定性信息,特别是为了防止罕见但代价高昂的错误。
参考文献
[1] OpenAI. GPT-4. [Online]. Available: https://openai.com/product/gpt-4
[2] Google AI. Gemini. [Online]. Available: https://ai.google/products/gemini/
[3] LLaMA. [Online]. Available: https://ai.facebook.com/blog/large-language-models-can-be-more-efficient-and-powerful/
[4] Mistral. [Online]. Available: https://mistral.ai/
[5] Kadavath, S. , et al. “Language Models are Better at Estimating Their Own Uncertainty Than We Thought.” arXiv preprint arXiv:2302.02661 (2023).✅
[6] Tian, Y. , et al. “Prompting for Calibration in Language Models.” arXiv preprint arXiv:2303.13250 (2023).✅
[7] Xiong, W. , et al. “Language Models Can’t Tell You What They Don’t Know: On the Limitations of Zero-Shot Uncertainty Estimation.” arXiv preprint arXiv:2305.15687 (2023).✅
[8] Lin, Z. , et al. “Calibrating Language Models for Uncertainty Estimation.” arXiv preprint arXiv:2107.08632 (2021).✅
[9] Zhang, S. , et al. “Learning to Estimate Uncertainty in Language Models.” arXiv preprint arXiv:2109.08850 (2021).✅
[10] Burns, C. , et al. “Truthfulness in Language Models: A Bayesian Perspective.” arXiv preprint arXiv:2304.09300 (2023).✅
[11] Azaria, A. , and M. Mitchell. “TruthfulQA: Measuring How Well Language Models Can Identify Truthful Claims.” arXiv preprint arXiv:2203.14028 (2022).✅
[12] Kuhn, J. , et al. “Semantic Clustering for Improved Calibration of Large Language Models.” arXiv preprint arXiv:2304.01763 (2023).✅
[13] MMLU. [Online]. Available: https://github.com/hendrycks/test-sets
[14] SelfAware. [Online]. Available: https://github.com/google-research/self-aware-language-models
[15] sBERT. [Online]. Available: https://www.sbert.net/
[16] OpenAI sentence embeddings. [Online]. Available: https://platform.openai.com/docs/guides/embeddings
[17] Guo, C. , et al. “On Calibration of Modern Neural Networks.” arXiv preprint arXiv:1706.04599 (2017).✅
[18] Brown, T. , et al. “Language Models are Few-Shot Learners.” arXiv preprint arXiv:2005.14165 (2020).✅
[19] Radford, A. , et al. “Language Models are Unsupervised Multitask Learners.” OpenAI (2019).✅
[20] Hu, J. , et al. “LoRA: Low-Rank Adaptation of Large Language Models.” arXiv preprint arXiv:2106.09685 (2021).✅
Q: 这篇论文试图解决什么问题?
A: 这篇论文探讨了在高风险应用中使用大型语言模型(Large Language Models, LLMs)时,如何确定何时可以信赖它们的预测结果。具体来说,论文的主要问题包括:
总的来说,论文的核心目标是提高LLMs在不确定性估计方面的可靠性,以便它们在需要高度信任的场合中更加安全和有用。
Q: 有哪些相关研究?
A: 论文中提到了与大型语言模型(LLMs)不确定性估计相关的多项研究,以下是一些主要的相关研究:
这些研究为理解LLMs在不确定性估计方面的能力提供了基础,并指出了现有方法的局限性,为本文提出的微调方法提供了对比和背景。论文通过这些相关工作,展示了在开放性问题生成中,现有方法的不足,并提出了改进的微调方法来提高不确定性估计的准确性和泛化能力。
Q: 论文如何解决这个问题?
A: 论文通过以下几个步骤来解决大型语言模型(LLMs)在不确定性估计方面的问题:
通过这些方法,论文不仅提高了LLMs在不确定性估计方面的性能,还为未来的研究和实际应用提供了有价值的见解和工具。
Q: 论文做了哪些实验?
A: 论文中进行了一系列实验来评估和验证所提出方法的有效性。以下是主要的实验内容:
这些实验全面地评估了所提出方法在不同方面的表现,包括校准性能、泛化能力、实用性以及模型间不确定性估计的能力。通过这些实验,论文展示了微调方法在提高LLMs不确定性估计准确性和可靠性方面的潜力。
Q: 有什么可以进一步探索的点?
A: 论文在讨论部分提出了一些未来工作的方向,以下是可以进一步探索的关键点:
这些探索点不仅涉及技术层面的改进,还包括对LLMs在实际应用中如何更好地服务于人类需求和社会价值的深入思考。
Q: 总结一下论文的主要内容
A: 这篇论文的主要内容可以总结如下: