借一步网
作者:
在
大规模语言模型(LLM)的涌现出的少量样本推理能力近年来激发了自然语言和机器学习社区的兴趣。尽管有众多的成功应用,但这种上下文能力的潜在机制仍然尚不清楚。在这项工作中,我们假设在推理过程中,所学语言标记的 \\textit{语义} 承担了最繁重的工作。与人类的符号推理过程不同,LLM的语义表示可以在标记之间建立强烈的联系,从而组成一个肤浅的逻辑链。为了测试我们的假设,我们从语言推理过程中解耦语义,并评估三种推理能力,即演绎、归纳和溯因。我们的发现揭示了语义在LLM的上下文推理中起着关键作用 — 当语义与常识一致时,LLM的表现要好得多,但利用上下文新知识在解决符号或反常识推理任务方面却很困难。这些惊人的观察质疑现代LLM是否已经掌握了与人类智能相同的归纳、演绎和溯因推理能力,并激励研究揭示黑盒LLM中存在的魔力。总的来说,我们的分析为语义在开发和评估语言模型推理能力中的作用提供了一个新的视角。代码可在 https://github.com/XiaojuanTang/ICSR 获取。
Introduction
Related Works
Task Definitions
Semantics Matter in LLMs’ memorizing
Conclusion and Discussion
要发表评论,您必须先登录。
大规模语言模型(LLM)的涌现出的少量样本推理能力近年来激发了自然语言和机器学习社区的兴趣。尽管有众多的成功应用,但这种上下文能力的潜在机制仍然尚不清楚。在这项工作中,我们假设在推理过程中,所学语言标记的 \\textit{语义} 承担了最繁重的工作。与人类的符号推理过程不同,LLM的语义表示可以在标记之间建立强烈的联系,从而组成一个肤浅的逻辑链。为了测试我们的假设,我们从语言推理过程中解耦语义,并评估三种推理能力,即演绎、归纳和溯因。我们的发现揭示了语义在LLM的上下文推理中起着关键作用 — 当语义与常识一致时,LLM的表现要好得多,但利用上下文新知识在解决符号或反常识推理任务方面却很困难。这些惊人的观察质疑现代LLM是否已经掌握了与人类智能相同的归纳、演绎和溯因推理能力,并激励研究揭示黑盒LLM中存在的魔力。总的来说,我们的分析为语义在开发和评估语言模型推理能力中的作用提供了一个新的视角。代码可在 https://github.com/XiaojuanTang/ICSR 获取。
Introduction
Related Works
2. 推理相关的基准:随着 NLP 领域的研究,各种关注推理的基准已经提出,包括自然语言推理(NLI)[18][19][20]、常识推理 [21,22]、多跳推理 [23,24] 等。
3. 对 LLM 推理能力的兴趣增加:近年来,人们对研究 LLM 的推理能力越来越感兴趣。研究人员探讨了各种方法,以便让 LLM 在推理任务上表现更好。
4. 链式思维(CoT)的提出:CoT 被提出,以便让模型生成一个推理路径,将复杂的推理分解成多个较小的步骤。在数学 [26]、常识 [21,27] 和符号推理 [5] 基准上,这种方法显著提高了性能。
5. 模糊语义下的推理能力:尽管在各种推理基准上取得了显著的性能,但所有任务都富含语义。因此,还不清楚 LLM 的推理能力来自哪里。这促使我们研究在语义解耦的情况下分析 LLM 的推理能力。
6. 上下文学习与推理能力的关系:上下文学习(ICL)与 LLM 的推理能力密切相关。ICL 是指语言模型在推理过程中从几个示例中学习并适应的能力。
7. 改进 ICL 的研究:一些研究使用现有的无监督相似性度量或训练提示检索器来选择相关示例 [28][29][30],others 将任务指令或不同的任务提示 [31,32] 纳入其中。
8. ICL 性能的变异性:尽管在实证上取得了成功,但上下文示例的选择可能会导致很大的性能波动 [34,9]。最近的研究还探索了 ground-truth 标签和问题,ground-truth 输入输出映射是否必要,仅使用不正确的标签在示例中只略微降低性能 [35],而上下文示例中的输入 – 标签一致性在 contextual demonstration 中起重要作用 [36]。
9. 理解为什么上下文学习有效:一些研究提供了理论分析,将上下文学习表示为贝叶斯推断 [13],或者某些示例中的 ICL 可以理解为已知学习算法的隐实现 [37]。然而,现有的上下文学习能力分析主要基于自然语言输入和丰富的语义信息。我们猜测,这个图 1 中的任务定义。记忆:从上下文知识中检索预测的事实。演绎:根据规则和事实预测预测的事实的正确性。归纳:根据具有相似模式的多个事实生成规则。类比:根据给定的规则和事实解释预测的事实。可能无法反映其在推导、归纳和类比方面的真正水平。
Task Definitions
2. 记忆在推理中的关键作用,包括存储推理过程中所需的上下文知识
3. 可以将记忆视为深度为 0 的推理,其中问题是一个已知事实
4. 推理任务涉及从存储的上下文知识中检索事实本身
5. 语义对记忆的影响尚未得到充分研究,因此除了将语义从推理中解耦外,我们还试图研究语义对记忆的影响
6. 使用新数据集微调语言模型,测试其在时间、效率和遗忘比例方面的表现
7. 在评估是否成功添加或更新一个事实时,我们查询 LLM,使用关于尾实体的问
Semantics Matter in LLMs’ memorizing
Conclusion and Discussion