当护士变成蓝色，大象变成橄榄球：大型语言模型的跨领域比对揭示人类般的模式

近年来，大型语言模型（LLMs）在生成人类般的文本和处理需要推理的复杂任务方面取得了显著进步。然而，它们解释自身行为或以人类可理解的方式呈现其行为的能力仍然是一个挑战。由于 LLMs 与人类的互动方式与人类非常相似，研究人员开始通过比较它们的行为来评估它们的理解和推理能力，并从认知心理学、心理语言学和神经科学等领域汲取灵感。

本文将借鉴一项新兴的心理学任务——跨领域比对，来评估 LLMs 的概念化和推理能力。这项任务要求参与者将一个语义领域的概念映射到另一个语义领域（例如，将“医生”映射到“颜色”，将“钢琴”映射到“动物”）。有趣的是，研究发现，人们在进行这些看似随意的映射时，会遵循一些可预测的模式，依赖于感知相似性或词语联想等特定类型的相似性。例如，”鼓”通常被映射到”雷声”，这显然是由于它们在感官上的相似性，因为它们都发出类似的声音。

本文通过一项行为研究，将跨领域比对任务应用于评估 LLMs 的概念化和推理能力。研究人员使用人类参与者在认知实验中收集的数据，提示多个 LLMs 进行跨领域比对，并分析其在群体和个体层面的反应。此外，他们还评估了模型对其预测的推理能力，通过分析和分类模型对这些映射的解释。

实验结果表明，LLMs 与人类在映射和解释方面存在一些相似之处，表明模型的概念表征与人类类似。这种相似性不仅体现在模型表征中，也体现在它们的行为中。此外，模型大多提供了有效的解释，并采用了与人类相似的推理路径。

实验设计

研究人员使用了 LL23 在其实验中收集的人类跨领域比对数据。数据包含 12 个领域，从中选择了 32 个领域对。对于每个领域对，研究人员构建了 2-3 个形式为“如果一个 x（源项目）是一个 y（目标领域），它会是什么 y？”的语句（例如，“如果一个医生（源项目）是一个颜色（目标领域），它会是什么颜色？”）。最终，研究人员获得了 75 个语句，每个语句都由 20 个参与者回答。

研究人员选择了七个强大的 LLMs，包括 Flan 语言模型和 Llama-chat 语言模型的变体，以及 Mistral-7B. ��这些模型被称为“指令遵循 LLMs”，属于专门训练用于遵循指令的语言模型类别——这在我们研究的语境中是一个重要的特征。✅

实验结果

研究人员发现，LLMs 在群体层面上的跨领域比对性能显著高于随机猜测。一些 LLMs 在个体层面上的比对结果甚至超过了群体层面上的最流行映射，表明它们的行为更接近于“典型”的人类行为，而不是随机参与者。

解释分析

研究人员还提示模型解释其映射结果。他们使用为人类确定的相似性类别（例如，感知相似性）来训练一个分类器，根据这些类别对模型的解释进行分类。结果表明，模型的解释类别分布与人类非常相似，表明它们在概念表征中依赖于类似类型的相似性。此外，对模型解释进行定性分析表明，它们能够为跨领域映射提供简洁的论据。

结论

本文的研究结果表明，LLMs 在跨领域比对任务中表现出与人类相似的行为模式，并能够对这些映射进行推理。这表明，LLMs 可能与人类一样，依赖于感知相似性等因素来进行概念化和推理。

未来方向

研究人员计划进一步研究这些发现的意义，并探讨 LLMs 与人类之间的这种比对是否更深层次，即，这些测试与人类个性和认知模式之间的行为关联是否也能在 LLMs 中观察到。鉴于 LLMs 表现出的令人印象深刻的能力，一些研究将它们视为认知模型，甚至神经模型。本文的研究为这种观点提供了实证基础，有助于了解这种观点的优缺点。

本文的研究结果为我们理解 LLMs 的能力提供了新的视角，并为未来研究提供了方向。