用链式知识提示增强语言模型的推理能力

摘要：

最近，基于思想链（CoT）的提示在复杂推理任务中取得了成功，其目标是设计一个简单的提示，如“让我们逐步思考”或多个具有精心设计的理由的上下文示例，以引导大型语言模型（LLM）生成中间推理步骤。然而，生成的理由通常会伴随着错误，导致不真实和不诚实的推理链。为了减轻这种脆弱性，我们提出了一种新颖的基于知识的链式提示（CoK），目标是引导 LLM 生成形式为结构三元组的明确知识证据。这受到了我们人类行为的影响，即在回答复杂问题之前，我们可以在脑海中绘制思维导图或知识图作为推理证据。得益于 CoK，我们进一步引入了一种 F^2 验证方法，以估计推理链在事实性和忠实性方面的可靠性。对于不可靠的回答，可以指出错误的证据以引导 LLM 重新思考。大量实验证明，我们的方法可以进一步提高常识、事实、符号和算术推理任务的性能。

正文：

1. 介绍

大型语言模型（LLM）在许多自然语言处理（NLP）任务中取得了最先进的性能。
上下文学习（ICL）是一个蓬勃发展的研究课题，旨在通过对少数标记示例进行条件化来生成预测。
LLM 可以自发地将复杂的多步骤问题分解为中间推理链。
CoT 提示是一种通过将显式结构知识证据与文本解释相结合来提示 LLM 生成推理链的方法。
CoK 提示是一种新颖的方法，它通过一系列将显式结构知识证据与文本解释相结合的示例来增强 LLM 的推理能力。
对问题的非事实性推理可能导致错误的答案，并且当 LLM 生成逻辑上合理的推理链时，但仍然提供不正确的答案时，响应可能是不忠实的。
为了解决这些问题，提出了一种新颖的基于知识的链式（CoK）提示方法来增强 LLM 的推理能力。
CoK 提示由两部分组成：证据三元组（CoK-ET）和解释提示（CoK-EH）。
CoK-ET 是一个结构三元组列表，反映了从查询到答案的整体推理证据。
CoK-EH 是对这些证据的解释。
为了构建具有 CoK 提示的上下文示例，我们首先对 K 个标记示例进行采样，每个示例都可以与一个简单的提示“让我们逐步思考”连接起来。
然后，我们从外部知识库（KB）中检索一些结构三元组，并通过人工精心注释证据三元组来获得设计良好的 CoK 提示。
CoK 提示可以被视为一个规则，它规范了输出空间 / 格式，并敦促 LLM 生成明确的证据，而不是仅仅尝试生成模糊的文本推理链。

2. 相关工作

上下文学习（ICL）是一种因果语言建模任务，允许 LLM 通过设计良好的基于文本的提示进行零样本 / 小样本学习。
ICL 可以绕过模型参数更新，并通过对少数标记示例进行条件化来实现显着的性能。
以前的工作已经探索了一些 ICL 的影响方面，例如输入输出映射、模板格式以及示例的不同选择和排列。
为了提高 ICL 的有效性，已经提出了一些新颖的方法，包括元学习、提示和示例工程、通过输入上下文示例获取 LM 偏好、通过自适应机制找到合适的示例组织以及预测校准。
与以往的工作不同，我们的工作重点是 LLM 的推理能力，包括推理提示设计和输出验证。
提出 CoT 提示是为了利用推理和可解释的信息来指导 LLM 生成可靠的响应。
提出了一系列 CoT 增强方法来进一步提高推理能力。
LLM 推理的知识利用包括利用外部知识和工具来帮助模型完成推理任务。
刘等。[2023b] 将计算物理引擎集成到语言建模过程中，以模拟潜在结果，并将它们用作输入的一部分来驱动模型进行推理。
变色龙通过结合各种工具和知识资源来增强 LLM。

3. 方法

生成的推理链有时会有错误，最终导致得出错误的答案。我们将这种挑战归咎于文本推理链：大型语言模型（LLM）可能会强制生成一种符合 CoT 提示格式的文本理性，但逻辑上模棱两可，导致得出
错误的答案。为了应对这种挑战，我们考虑了两个核心方面。
提示的生成方式。仅使用文本提示链并不能充分发挥 LLM 生成可靠和具体的推理过程的能力。受到 KB 中三元组结构的影响，我们需要用结构特征增强提示。
验证。LLM 通常无法检查它们已回答的答案，这需要我们利用外部知识进行验证。基于这些考虑，我们提供了如何提高 LLM 推理能力的具体解决方案。该框架的概述如图 2 所示。
框架说明。推理可以建模为现有知识系统中的归纳和演绎。这是受到人类行为启发的，人们会画思维导图或知识图来分析问题并找到通往答案的正确路径。幸运的是，我们可以采用 KB 中三元的概念，将其视为“主体，关系，对象”，以形式化推理链的明确证据。
建议的生成方式。我们首先使用链 -of-knowledge（CoK）提示生成示例。然后，可以使用 CoK 提示让 LLM 生成包括证据三元组、解释提示和最终答案的推理链。最后，我们估计推理链在事实性和可靠性方面，不可靠的链将被重新考虑。
建议的生成方式。为了便于 LLM 生成文本理性，我们可以采用 KB 中三元组的概念，将其视为“主体，关系，对象”，以形式化推理链的明确证据。CoK-ET 表示从 LLM 中支持逐步思维过程的多个三元组列表。CoK-EH 表示推理链的解释，类似于普通的 CoT。例如，在图 1 中，我们可以要求 LLM 生成两个明确的证据：“德雷克·怀特是一名篮球运动员”和“篮球投篮通常用于曲棍球或网球”以及一个文本解释，以支持最终答案“不”。
挑战。构建文本理性，使其结构符合 CoK 三元组，是 CoK 提示生成中的关键挑战。如图 2 所示，我们首先进行示例构建，以获得一个设计良好的任务特定提示。具体而言，我们遵循 Wei 等。[2022，Wang 等。2022c] 的指导，随机选择 K 个问题作为基本示例。要自动获得 CoK-EH，我们遵循 Kojima 等。[2022] 的方法，使用简单的提示“让我们一步一步地思考”生成零样本 CoT 的文本理性。另一个挑战是如何获得更好的表示文本理性。

4. 实验设置

实验共选择了五种类型的任务，包括常识和事实推理、算术推理、符号推理等，具体任务和数据集如下：
常识和事实推理任务使用了 CommonSenseQA、StrategyQA、OpenBookQA、AI2 Reasoning Challenge (ARC-c)、BoolQ 等数据集，其中使用了 Wikitude 6、ConceptNet、Wikidata5M、ATOMIC、GLUCOSE、ASER、CausalBank 等知识库。
算术推理任务使用了 GSM8K、SVAMP 等数据集，其中使用了 AQuA、MultiArith 等算法。
符号推理任务使用了 Last Letter Concatenation、Coin Flip 等任务，其中手动构建了每个词的词典知识库。
在我们的实验中，首先使用了几手 / 零手标准提示（SP）作为基线，然后使用了一些 SOTA CoT 方法作为强大的基线，如 Chain-of-thought (CoT)、Zero-shot-CoT 和 Auto-CoT 等。
常识和事实推理任务在多个数据集上进行了比较，发现在几手 / 零手学习场景下，CoK 提示的性能表现良好，可以超过之前 CoT 策略的表现。这表明将显性证据三倍体和解释相结合可以提高 LLM 的推理能力。

5. 结论

提出了一种名为 chain-of-knowledge prompting 的方法，旨在将大语言模型的推理链分解成多个证据三元组和解释提示，以进一步提高推理能力。
根据 chain-of-knowledge prompt，引入了 F2-Verification，完全利用外部知识库对生成的推理链进行事实性和可靠性后验证。
采用重新思考过程，注入知识以纠正虚假证据三元组，并使大语言模型重新生成答案。
在多个推理任务上取得了比其他提示方法更好的结果。
在未来，计划进一步改进其他规模的大语言模型的性能，将知识库扩展到搜索引擎以实现实时验证，并对大语言模型的推理进行可解释性分析。
工作基于对大型语言模型的提示方法，在多个基准测试集上取得了优秀的性能。
然而，它仍然具有以下局限性：（1）知识库中的证据三元组是有限的，可能无法确保对模型所有问题的全面覆盖。（2）在重新思考算法的背景下，CoK 可能需要比经典的 CoT 方法更多 API 调用。
在社会影响方面，使用的知识库都是来自公共数据来源。
将事实知识注入模型推理过程不会引入额外的偏见。
它可以在某种程度上防止模型提供不负责且有害的答案。
在 12 个公开的可用于推理任务的基准数据集上对 CoK 进行了评估，涵盖了算术推理、常识推理、符号推理和自然语言理解任务。
数据集统计信息如表 5 所示，每个数据集的详细信息如下所示。
CoK 在多个基准测试集上取得了比其他提示方法更好的结果。