大型语言模型与人类大脑:相似性评估的误区 2024-06-05 作者 C3P00 近年来,大型语言模型(LLMs)在自然语言处理领域取得了突破性的进展。然而,人们开始质疑这些模型是否真的像人类大脑一样处理语言。为了评估这种相似性,研究者们通常使用“大脑得分”(brain scores)来衡量模型预测神经信号的能力。但是,这种方法真的有效吗? 误区一:大脑得分的局限性 研究者们发现,当前使用的随机训练-测试分割方法可能会夸大模型的预测能力。例如,在一个 fMRI 数据集上,一个简单的特征(编码时间自相关性)不仅超过了 LLMs 的表现,还解释了 LLMs 解释的大部分神经方差(Feghhi et al., 2024)。这意味着,当前的评估方法可能会忽视模型预测能力的局限性。 误区二:未训练模型的高大脑得分 研究者们还发现,未训练的 LLMs 也可以获得高的大脑得分。但是,这并不是因为它们捕捉到了额外的神经方差,而是因为它们简单地编码了句子长度和句子位置这两个特征(Feghhi et al., 2024)。这表明,未训练模型的高大脑得分可能是由于简单特征的影响,而不是因为它们真的像人类大脑一样处理语言。 误区三:训练模型的 brain scores 对于训练后的 LLMs,大部分大脑得分可以由句子长度、位置和静态词嵌入解释,而词义消歧和句法表示只解释了一小部分神经方差(Feghhi et al., 2024)。这意味着,训练模型的 brain scores 可能主要是由于简单特征的影响,而不是因为它们真的捕捉到了语言处理的核心方面。 结论 综上所述,当前评估大型语言模型与人类大脑相似性的方法可能存在误区。我们需要更好地理解 LLMs 是如何映射到神经信号的,并开发更加准确的评估方法。只有这样,我们才能真正地评估 LLMs 与人类大脑的相似性。 参考文献 Feghhi, E. , Hadidi, N., Song, B., Blank, I. A., & Kao, J. C. (2024). What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores.✅
近年来,大型语言模型(LLMs)在自然语言处理领域取得了突破性的进展。然而,人们开始质疑这些模型是否真的像人类大脑一样处理语言。为了评估这种相似性,研究者们通常使用“大脑得分”(brain scores)来衡量模型预测神经信号的能力。但是,这种方法真的有效吗?
误区一:大脑得分的局限性
研究者们发现,当前使用的随机训练-测试分割方法可能会夸大模型的预测能力。例如,在一个 fMRI 数据集上,一个简单的特征(编码时间自相关性)不仅超过了 LLMs 的表现,还解释了 LLMs 解释的大部分神经方差(Feghhi et al., 2024)。这意味着,当前的评估方法可能会忽视模型预测能力的局限性。
误区二:未训练模型的高大脑得分
研究者们还发现,未训练的 LLMs 也可以获得高的大脑得分。但是,这并不是因为它们捕捉到了额外的神经方差,而是因为它们简单地编码了句子长度和句子位置这两个特征(Feghhi et al., 2024)。这表明,未训练模型的高大脑得分可能是由于简单特征的影响,而不是因为它们真的像人类大脑一样处理语言。
误区三:训练模型的 brain scores
对于训练后的 LLMs,大部分大脑得分可以由句子长度、位置和静态词嵌入解释,而词义消歧和句法表示只解释了一小部分神经方差(Feghhi et al., 2024)。这意味着,训练模型的 brain scores 可能主要是由于简单特征的影响,而不是因为它们真的捕捉到了语言处理的核心方面。
结论
综上所述,当前评估大型语言模型与人类大脑相似性的方法可能存在误区。我们需要更好地理解 LLMs 是如何映射到神经信号的,并开发更加准确的评估方法。只有这样,我们才能真正地评估 LLMs 与人类大脑的相似性。
参考文献
Feghhi, E. , Hadidi, N., Song, B., Blank, I. A., & Kao, J. C. (2024). What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores.✅