真假猴王：LLM 上下文忠实度的自我进化之路

大型语言模型（LLM）宛如一位博学多才的学者，能言善辩，出口成章。然而，这位「学者」有时也会信口开河，一本正经地胡说八道，产生所谓的「幻觉」。尤其是在需要长篇大论、引经据典的长文本问答（LFQA）任务中，如何保证 LLM 的回答忠于上下文，不偏离主题，成为了一个亟待解决的问题。这不仅关系到 RAG 系统的可靠性，更影响着我们对 AI 的信任。

🌍 RAG 的困境：记忆与现实的冲突

检索增强生成（RAG）被视为缓解 LLM 幻觉的一剂良方。它通过为 LLM 提供外部知识，让其在「参考资料」的基础上生成答案，避免了完全依赖模型自身知识可能导致的错误。然而，RAG 并非万无一失。当 LLM 自身的「记忆」与外部提供的「现实」发生冲突时，它可能会固执己见，坚持自己的错误认知，或者干脆忽略外部信息，导致回答不符合要求。这就像一个记性不好的人，明明手边有资料，却偏要靠自己的「印象」来回答问题，结果自然是漏洞百出。

🧠 GenDiE：自我进化的炼丹炉

为了解决上述问题，论文提出了一种名为 GenDiE（Generate, Discriminate, Evolve）的自进化框架。GenDiE 的核心思想是：与其被动地纠正 LLM 的错误，不如主动地让它学会自我纠错，通过不断地自我生成、自我判断、自我进化，最终达到上下文忠实的目的。这就像孙悟空在太上老君的炼丹炉里不断锤炼，最终练就了火眼金睛，能够识别妖魔鬼怪。

🧬 细粒度优化：从句子到答案的精雕细琢

GenDiE 的一个重要特点是其细粒度的优化方式。传统的训练方法通常将整个答案作为一个整体进行优化，忽略了答案中各个句子可能存在的差异。而 GenDiE 则将答案拆解为独立的句子，对每个句子进行单独的优化。这种做法能够更精确地捕捉到答案中不忠实的细节，就像医生用显微镜观察病灶，能够更准确地找到问题所在。

具体来说，GenDiE 的训练过程分为以下几个步骤：

生成（Generate）：模型根据问题和上下文，生成多个候选句子。
判别（Discriminate）：模型对生成的候选句子进行评分，判断其与上下文的忠实程度。
进化（Evolve）：模型根据评分结果，选择更忠实的句子作为训练数据，用于下一轮的训练。

通过不断地重复上述步骤，模型能够逐渐提高其生成忠实句子的能力，最终达到自我进化的目的。

🌳 树状采样：兼顾多样性与质量

为了更有效地生成训练数据，GenDiE 采用了一种名为树状采样的策略。这种策略类似于决策树的生成过程，模型从一个空句子开始，逐步生成后续的句子，形成一棵树状结构。树的每个节点代表一个句子，每条路径代表一个完整的答案。通过这种方式，GenDiE 能够生成多样化的候选答案，并从中选择质量最高的答案作为训练数据。

🧮 公式解读：语言模型与判别模型的融合

GenDiE 的训练目标是让模型同时具备生成能力和判别能力。为了实现这一目标，论文采用了一种多任务学习的策略，将语言模型的目标和判别模型的目标结合起来。具体的训练目标可以用以下公式表示：

$L = \sum_{a \in A} \log P_{\theta}(a|q, P, A_{<a}) + \lambda \log \frac{P_{\theta}(a|q, P, A_{<a})(1 - P_{\theta}(a'|q, P, A_{<a}))}{P_{\theta}(a'|q, P, A_{<a})(1 - P_{\theta}(a|q, P, A_{<a}))}$

其中：

$L$ 代表总的损失函数。
$a$ 代表目标句子。
$a’$ 代表负例句子。
$q$ 代表问题。
$P$ 代表上下文。
$A_{<a}$ 代表句子 $a$ 之前的所有句子。
$P_{\theta}(a|q, P, A_{<a})$ 代表模型生成句子 $a$ 的概率。
$\lambda$ 是一个超参数，用于平衡语言模型目标和判别模型目标。

公式的第一项是标准的语言模型目标，旨在最大化模型生成目标句子的概率。第二项是判别模型目标，旨在最大化模型对目标句子和负例句子的区分度。通过同时优化这两项，模型能够同时提高其生成能力和判别能力。

🔍 分层推理：充分利用生成与判别能力

在推理阶段，GenDiE 采用了一种分层推理的策略。首先，模型生成多个候选句子；然后，模型对生成的候选句子进行评分，选择评分最高的句子作为最终的输出。这种分层推理的策略能够充分利用模型在训练阶段学到的生成能力和判别能力，从而提高答案的质量。

📊 实验结果：超越基线，适应领域

为了验证 GenDiE 的有效性，论文在 ASQA 和 ConFiQA 两个数据集上进行了实验。实验结果表明，GenDiE 在忠实度和正确性两个指标上均优于多个基线模型，并且在领域自适应方面表现出良好的鲁棒性。更重要的是，实验结果还表明，GenDiE 能够通过不断地自我进化，持续提高自身的性能。

⚔️ 消融实验：验证关键设计的有效性

为了进一步验证 GenDiE 中各个关键设计的有效性，论文进行了一系列消融实验。实验结果表明：

自我进化：通过不断地自我进化，GenDiE 能够持续提高自身的性能。
自我评分：GenDiE 能够有效地评估句子的忠实程度，为自我进化提供可靠的指导。
句子级别优化：相比于答案级别优化，句子级别优化能够更精确地捕捉到答案中不忠实的细节。

🎭 案例分析：真假猴王现形记

为了更直观地展示 GenDiE 的优势，论文提供了一个案例分析。在这个案例中，GenDiE 能够生成完全忠于上下文的答案，而基线模型则会生成一些与上下文不符的内容。这个案例充分说明了 GenDiE 在提高上下文忠实度方面的有效性。

📚 相关工作：站在巨人肩膀上

论文还对相关工作进行了综述，包括提高 LLM 忠实度的方法和自进化学习的方法。通过对相关工作的分析，论文进一步突出了 GenDiE 的创新性和优势。

🔮 总结与展望：通往可信赖 AI 的道路

GenDiE 是一种有效的提高 LLM 上下文忠实度的方法。它通过自我进化、细粒度优化和分层推理等手段，让 LLM 能够生成更可靠、更值得信赖的答案。GenDiE 的成功为构建可信赖的 RAG 系统奠定了基础，也为未来的 AI 研究指明了方向。

🚧 局限性与未来工作

论文也指出了 GenDiE 存在的局限性，例如：

GenDiE 在需要快速变化的世界知识的 QA 任务中的泛化能力。
多任务训练中其他训练目标的影响。
分层推理带来的额外计算开销。

未来，研究者可以针对这些局限性进行改进，例如：

探索更有效的知识更新机制，提高 GenDiE 在快速变化环境中的适应能力。
研究不同的多任务训练目标，进一步提高 GenDiE 的性能。
优化分层推理算法，降低计算开销。

⚖️ 伦理声明

论文强调，提高 LLM 的忠实度并不意味着保证其生成的内容完全正确。即使是自我评分的「忠实」内容，也可能继承训练数据中的偏见或遗漏。因此，在应用 GenDiE 时，需要保持批判性思维，并采取措施避免潜在的伦理风险。

参考文献

Kun Li, Tianhua Zhang, Yunxiang Li, et al. Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution. 2025.