🌟 知识图谱、大型语言模型与幻觉：NLP视角的深度探讨

🧵 引言：语言模型的光辉与阴影

当我们谈及 大型语言模型（LLMs） 的时候，脑海中往往浮现出它们的无限潜力。正如《星际穿越》中的量子机器人，它们能驾驭复杂的语言任务，从文本生成到问答系统，从写诗到预测代码。然而，正所谓「月有阴晴圆缺，人有悲欢离合」，LLMs 的能力背后也隐藏着一个不容忽视的阴影—— 幻觉（hallucinations）。

幻觉是什么？简单来说，这是 LLMs 在生成看似合理却完全不符合事实的内容时出现的现象。例如，当你问某个模型埃及金字塔的建造年份，它可能信口开河地回答「18世纪」，这不仅令人哭笑不得，还可能导致严重的误导，尤其是在医疗、法律等事实敏感领域。

但别急，科学界从不轻易退缩。近年来，研究者提出了一种聪明的解决方案—— 知识图谱（Knowledge Graphs, KGs）。这些图谱就像一座座百科全书型的迷宫，储存着真实世界中的实体（节点）和它们的关系（边）。将 KGs 与 LLMs 结合，或许能为幻觉问题带来一线曙光。

本论文正是站在 NLP（自然语言处理）的前沿，探讨如何利用知识图谱来缓解大型语言模型的幻觉问题。我们深入分析了目前的研究现状，讨论了数据集、模型设计以及评估方法的优劣，并指明了未来研究的方向。

📚 背景：LLMs 与幻觉的共舞

🌀 幻觉的多样性

幻觉的出现并非单一的错误，而是多种形式交织的复杂现象。如图 1 所示，不同类型的幻觉包括：

世界知识相关的幻觉：模型生成的内容与客观事实冲突。例如，错误地描述历史事件的时间或地点。
自相矛盾型幻觉：模型在同一段对话中给出前后矛盾的回答。
上下文违背型幻觉：生成的内容与用户提供的提示或上下文完全不符。

尽管某些情况下，幻觉可能被用作创造性任务（如艺术创作）的灵感来源（Perkovic et al., 2024），但在诸如问答、信息检索和推荐系统等需要高准确性的领域，幻觉无疑是一个重大的障碍。

🔑 知识图谱的潜力

知识图谱是以结构化方式存储的事实集合，能够作为一种补充手段，为语言模型提供上下文信息，从而避免完全依赖模型内部的「记忆」。与重新训练语言模型（这是一项昂贵且耗时的任务）不同，知识图谱可以在推理阶段实时提供最新的事实。

🛠️ 方法概述：如何融合知识图谱与语言模型

如图 2 所示，知识图谱可以在模型的不同阶段进行整合：

预训练阶段：在模型训练时直接引入知识图谱信息。
推理阶段：在生成内容时通过提示或架构调整引入知识图谱。
后处理阶段：在模型生成输出后，通过知识图谱验证内容的准确性并进行修正。

以下我们逐一探讨这些方法的优劣势。

🎓 预训练中的知识整合

一种方法是将知识图谱三元组（例如，”巴黎 -> 是 -> 法国的首都”）直接融入模型的预训练过程中。例如，Sun et al. (2021) 提出了一种通过掩码实体预测任务将知识注入文本的方法。这种方法的优势在于，模型在训练时就能学习到广泛的事实知识。然而，这种方法的缺点在于知识的静态性——一旦模型训练完成，更新知识需要重新训练整个模型。

🤔 推理中的知识注入

推理阶段的知识注入主要通过提示（prompting）完成。例如，将用户的查询与相关的知识图谱信息结合，形成一个新的提示输入模型。然而，提示法也有其固有的局限性：

上下文窗口限制：模型的输入长度有限，可能导致信息丢失。
提示格式的敏感性：模型对提示的措辞非常敏感，稍有变化可能导致截然不同的输出。

为此，研究者提出了 上下文感知解码（context-aware decoding）技术，通过动态调整模型对提示中知识的优先级来提高生成内容的准确性（Shi et al., 2024）。

🩹 后处理与输出修正

后处理方法的核心思想是：生成内容后，利用知识图谱验证其准确性，并对错误部分进行修正。例如，Guan et al. (2024) 提出了一个五阶段管道系统，依次进行内容生成、事实提取、验证、修正。虽然这一方法在理论上能够显著提高内容的可靠性，但其多阶段设计也增加了出错的风险和计算成本。

🔍 幻觉的评估方法：从粗到细

幻觉的评估是解决问题的第一步。然而，这一任务并不简单，因为幻觉往往涉及语义层面的问题，而非简单的语法错误。

🌟 现有评估指标

目前常用的评估指标包括：

BERTScore 和 BARTScore：通过比较生成文本与参考文本的语义相似性来评估内容的正确性。
文本蕴涵：使用模型判断生成内容是否与事实知识相符。

然而，这些方法通常只能捕捉整体的语义偏差，而无法检测到细粒度的错误（例如，一个单词的错误可能导致整个句子的意思发生重大变化）。

🪞 精细化评估的必要性

为此，研究者提出了一些更细粒度的评估工具。例如，FELM 基准（Zhao et al., 2024）能够在句子层面评估幻觉，而 MuShroom-2025 数据集甚至可以在文本片段（span）层面检测幻觉。

🌐 多语言的挑战与机遇

幻觉问题在低资源语言中尤为严重，因为这些语言缺乏足够的训练数据。此外，当前的大多数知识图谱和评估数据集都集中于英文，这进一步限制了语言模型在多语言场景中的应用。

研究者建议通过多语言知识图谱（如 Kaffee et al., 2023）来解决这一问题。这些图谱不仅可以改善低资源语言的知识覆盖，还能帮助模型在多语言环境中实现一致的表现。

🚀 未来研究方向

通过本文的讨论，我们总结出以下几个关键的未来研究方向：

大规模多语言数据集：构建包含知识图谱三元组的大规模数据集，以支持模型的训练和评估。
细粒度幻觉检测：开发能够在文本片段层面检测幻觉的工具。
摆脱提示依赖的知识整合方法：研究一种更高效、更稳定的知识整合方法，而非依赖于易碎的提示工程。
多方法组合研究：探索不同知识整合方法的协同作用，以设计更可靠的系统。
跨语言研究：在幻觉检测和消除中引入多语言支持。

📜 结论

知识图谱与大型语言模型的结合为解决幻觉问题提供了希望。然而，这一领域仍然充满挑战，尤其是在多语言支持、细粒度评估以及知识整合方法的多样性方面。我们相信，通过 NLP 和语义网社区的共同努力，这些挑战终将被克服。

📚 参考文献

Augenstein, I. , et al. (2024). “On the Factuality of Language Models.”✅
Zhang, X. , et al. (2023). “A Comprehensive Survey on Hallucinations in LLMs.”✅
Guan, Y. , et al. (2024). “Retrofitting LLM Outputs Using Knowledge Graphs.”✅
Zhao, L. , et al. (2024). “FELM Benchmark for Fine-Grained Hallucination Evaluation.”✅
Kaffee, L. , et al. (2023). “Multilingual Knowledge Graphs: Challenges and Opportunities.”✅