大型语言模型是上下文语义推理器，而不是符号推理者

大规模语言模型（LLM）的涌现出的少量样本推理能力近年来激发了自然语言和机器学习社区的兴趣。尽管有众多的成功应用，但这种上下文能力的潜在机制仍然尚不清楚。在这项工作中，我们假设在推理过程中，所学语言标记的 \ 语义承担了最繁重的工作。与人类的符号推理过程不同，LLM 的语义表示可以在标记之间建立强烈的联系，从而组成一个肤浅的逻辑链。为了测试我们的假设，我们从语言推理过程中解耦语义，并评估三种推理能力，即演绎、归纳和溯因。我们的发现揭示了语义在 LLM 的上下文推理中起着关键作用 — 当语义与常识一致时，LLM 的表现要好得多，但利用上下文新知识在解决符号或反常识推理任务方面却很困难。这些惊人的观察质疑现代 LLM 是否已经掌握了与人类智能相同的归纳、演绎和溯因推理能力，并激励研究揭示黑盒 LLM 中存在的魔力。总的来说，我们的分析为语义在开发和评估语言模型推理能力中的作用提供了一个新的视角。代码可在 https://github.com/XiaojuanTang/ICSR 获取。

Introduction

近年来，大型语言模型（LLMs）已经在各种自然语言任务中取得了显著的性能，包括问答、文本摘要、机器翻译、逻辑推理等。这些成功主要归功于 LLMs 能够利用“零次”或“几次”学习方法而无需任何梯度更新 – 任务描述或几个例子来引导其推理过程 [1][2][3][4]。一个典型的例子是“链式思维”（CoT）方法，涉及推理演示或简单的提示，例如“让我们一步一步地思考”来执行复杂推理任务 [5,6]。尽管 LLMs 具有强大的上下文学习能力，但它们在给定上下文中的运作机制仍不清楚。先前的研究调查了给定示例中哪些方面有助于最终任务绩效，包括地面真实标签和示例顺序 [7][8][9]。另一条线的工作重点在于解释和利用上下文学习（ICL）机制 [10][11][12][13]。然而，它们共同的基本问题是，它们输入的上下文提示是基于自然语言查询来探究 LLMs 的推理能力。根据双过程理论 [14,15]，人类通常使用系统 II 的符号推理来解决复杂的逻辑推理问题。为了填补研究空白，我们通过将语义与语言推理过程解耦来系统地研究 LLMs 的上下文推理能力。通过广泛的实验，我们旨在回答以下研究问题：LLMs 是否在没有语义的情况下是好的上下文推理器？在本工作中，我们假设语言标记的学习确实在推理过程中发挥了重要作用，创建了标记之间强烈的连接，从而形成一个表面逻辑链（捷径），而不是真正执行正式推理过程。为了测试我们的假设，给定符号知识（事实和规则），我们在新提出的合成数据集上测试三种推理能力（即演绎、归纳和演绎推理）：由逻辑规则生成的封闭世界、无噪音的多跃点符号推理数据集 Symbolic Tree dataset。此外，我们还使用 ProofWriter [16] Depth-1 任务，该任务包含答案需要推理多达深度 D=1 的问题。我们的研究结果表明，语义确实在 LLMs 的上下文推理中发挥了重要作用：当语义与常识一致时，LLMs 表现相当良好；当语义与上下文背景不一致或为反常语义时，LLMs 无法通过利用上下文新知识来解决推理任务。此外，我们还研究了 LLMs 的忆

Related Works

1. 推理在 LLMs 中的重要性：推理是涉及逻辑推断和基于给定信息的合乎逻辑的结论的基本认知过程。在自然语言处理领域（NLP）早期就已经进行了大量的研究。
2. 推理相关的基准：随着 NLP 领域的研究，各种关注推理的基准已经提出，包括自然语言推理（NLI）[18][19][20]、常识推理 [21,22]、多跳推理 [23,24] 等。
3. 对 LLM 推理能力的兴趣增加：近年来，人们对研究 LLM 的推理能力越来越感兴趣。研究人员探讨了各种方法，以便让 LLM 在推理任务上表现更好。
4. 链式思维（CoT）的提出：CoT 被提出，以便让模型生成一个推理路径，将复杂的推理分解成多个较小的步骤。在数学 [26]、常识 [21,27] 和符号推理 [5] 基准上，这种方法显著提高了性能。
5. 模糊语义下的推理能力：尽管在各种推理基准上取得了显著的性能，但所有任务都富含语义。因此，还不清楚 LLM 的推理能力来自哪里。这促使我们研究在语义解耦的情况下分析 LLM 的推理能力。
6. 上下文学习与推理能力的关系：上下文学习（ICL）与 LLM 的推理能力密切相关。ICL 是指语言模型在推理过程中从几个示例中学习并适应的能力。
7. 改进 ICL 的研究：一些研究使用现有的无监督相似性度量或训练提示检索器来选择相关示例 [28][29][30]，others 将任务指令或不同的任务提示 [31,32] 纳入其中。
8. ICL 性能的变异性：尽管在实证上取得了成功，但上下文示例的选择可能会导致很大的性能波动 [34,9]。最近的研究还探索了 ground-truth 标签和问题，ground-truth 输入输出映射是否必要，仅使用不正确的标签在示例中只略微降低性能 [35]，而上下文示例中的输入 – 标签一致性在 contextual demonstration 中起重要作用 [36]。
9. 理解为什么上下文学习有效：一些研究提供了理论分析，将上下文学习表示为贝叶斯推断 [13]，或者某些示例中的 ICL 可以理解为已知学习算法的隐实现 [37]。然而，现有的上下文学习能力分析主要基于自然语言输入和丰富的语义信息。我们猜测，这个图 1 中的任务定义。记忆：从上下文知识中检索预测的事实。演绎：根据规则和事实预测预测的事实的正确性。归纳：根据具有相似模式的多个事实生成规则。类比：根据给定的规则和事实解释预测的事实。可能无法反映其在推导、归纳和类比方面的真正水平。

Task Definitions

1. 推理和记忆机制的定义及其任务描述
2. 记忆在推理中的关键作用，包括存储推理过程中所需的上下文知识
3. 可以将记忆视为深度为 0 的推理，其中问题是一个已知事实
4. 推理任务涉及从存储的上下文知识中检索事实本身
5. 语义对记忆的影响尚未得到充分研究，因此除了将语义从推理中解耦外，我们还试图研究语义对记忆的影响
6. 使用新数据集微调语言模型，测试其在时间、效率和遗忘比例方面的表现
7. 在评估是否成功添加或更新一个事实时，我们查询 LLM，使用关于尾实体的问

Semantics Matter in LLMs’ memorizing

本文比较了 LLM 的记忆力与对新符号和语义信息的记忆力。结果报告在表 1 中。从表 1 中，我们可以看到添加和更新语义知识的效率比添加和更新符号知识更高。这表明，与人类记忆能力相似，LLMs 更容易记住语义知识而不是符号知识（通常记忆符号比理解相关语义更具有挑战性）。然而，我们还在语义设置中的遗忘比例上发现，语义设置的遗忘比例比符号设置高。这可以归因于 LLMs 中语义知识具有更强的系数，这意味着在更新某些知识时，对系统中的其他知识产生更重大影响。在将 LLM 与图数据库 Neo4j 的比较中，我们可以看到，无论插入或编辑新的三元组，使用 Neo4j 进行知识更新都达到 100% 的准确率，无论知识是符号还是语义。预料之中，因为添加或更新的知识不与现有知识集重叠，所以不会对现有知识库产生进一步影响。这突出了使用非参数化知识库的优势。此外，与 LLM fine-tuning 的计算成本相比，使用优化存储机制的图数据库更新知识显著更快。这表明将 LLM 与非参数化知识库相结合可以提供在实际应用中更实际、更有效的途径。我们首先考虑将语义从上下文推理中解耦与保留原始语义之间的影响。在表 2 中，我们展示了在 Symbolic Tree 数据集上进行演绎、归纳和类比推理任务的结果。从表 2 中，我们观察到在两个演绎和归纳推理场景中，语义设置显著优于符号设置。值得注意的是，在归纳实验中，语义设置比符号设置大约高 30% 的准确度。这表明，在推理过程中保留丰富的语义可以使 LLM 的表现更好。虽然类比推理中，符号设置与语义设置的结果相当，但重要的是要注意，类比推理任务中的长上下文知识可能增加从记忆中选择相关信息和推理的难度。为了进一步研究这个问题，我们在一个更小的 Symbolic Tree 数据集上进行了额外的实验，结果在附录 O 中证实了语义设置仍然优于符号设置。这证实了保留语义可以提高 LLM 的推理能力。尽管 LLM 具有丰富的语义和强大的语言理解能力，但在与专门用于符号推理的方法相比，它们在推理任务上表现不佳。这表明，尽管 LLM 拥有广泛的知識庫和強大的語言理解能力，但 symbolic reasoning 不是它們相对于特定 symbolic-based reasoning 方法的主要优势。上述实验为语义对 LLM 推理的重要性提供了初步证据。

Conclusion and Discussion

本文介绍了首次对 LLM 推理能力中语义学角色的全面调查，通过将语义学与上下文提示分离。实验结果表明，当语义与常识一致时，LLM 表现相当良好；当语义与上下文不同时，LLM 无法通过利用上下文中的新知识来解决推理任务。这些发现揭示了语义在 LLM 推理能力中的重要性，并激发了对揭示黑盒 LLM 中存在的魔法的进一步研究。根据我们分析中发现的结论，我们指出了几个大型基础模型未来发展的潜在方向：更复杂的符号推理基准：为了提高 LLM 的上下文符号推理能力，需要开发具有分离语义的新数据集和更复杂的推理任务。这些基准应该挑战具有多样性和复杂符号知识的 LLM。结合外部非参数知识库：我们的实验结果表明，LLM 的存储能力与现有的图数据库方法不可比。这促使我们考虑将 LLM 与外部非参数知识库（如图数据库）集成，以提高其知识添加和更新。这种混合方法可以利用 LLM 的语言理解和非参数来源中存储的全面知识。提高处理上下文知识的能力：更强大和有力的能力来处理和记住上下文知识对于执行上下文推理任务至关重要。进一步的研究需要改进 LLM 在处理和利用上下文知识方面的能力。这包括开发机制，以更好地编码和检索相关信息，以便更有效地推理。从事实中，我们知道 r3(Amelie, Thomas) 和 r3(Thomas, Jonathan)。因此，我们可以应用 L11，其中 A = Amelie，B = Thomas，C = Jonathan，D 和 E 为变量。这给我们带来了：r3(Thomas, Jonathan) ∧ r3(Amelie, Thomas) ∧ r3(Thomas, D) ∧ r3(D, E) ∧ r2(Amelie) → r14(Amelie, E)。由于我们知道 r2(Amelie) 是 F7 中的真实陈述，我们可以将上述声明简化为：r3(Thomas, Jonathan) ∧ r3(Amelie, Thomas) ∧ r3(Thomas, D) ∧ r3(D, E) → r14(Amelie, E)。现在，我们可以将 r3(Amelie, Thomas) 和 r3(Thomas, Jonathan) 代入得到：r3(Thomas, Jonathan) ∧ r3(Thomas, D) ∧ r3(D, E) → r14(Amelie, E)。我们可以看到，在选择 D = Alina 和 E = Jonathan 时，这个语句是正确的，因为我们有 r3(Thomas, Alina) 和 r3(Alina, Jonathan)。因此，r14(Amelie, Jonathan) 是正确的。答案是 True。因此，答案是 True。声明：r8(Leonie, Nico) 答案：我们可以使用 L5 来推断 r8(Leonie, Nico) 的真假。L5 说明，如果存在三个个体 A、B 和 C，使得 A 与 B 相关，B 与 C 相关，并且 A 具有某种属性（r2），则 A 与 C 以某种方式相关（r8）。使用这个规则，我们可以看到我们具有以下事实：-r3(Leonie, Emily) -r3(Emily, Nico) 因此，我们可以得出 r8(Leonie, Nico) 是真实的结论。声明：r7(Patrick, Alina) 答案：我们可以使用 L4：∀A, B：r3(A, B) ∧ r1(A) → r7(A, B) 来确定 r7(Patrick, Alina) 是真还是假。

大型语言模型是上下文语义推理器，而不是 符号推理者

大型语言模型是上下文语义推理器，而不是符号推理者