大型语言模型与人类大脑:相似性评估的误区

近年来,大型语言模型(LLMs)在自然语言处理领域取得了突破性的进展。然而,人们开始质疑这些模型是否真的像人类大脑一样处理语言。为了评估这种相似性,研究者们通常使用“大脑得分”(brain scores)来衡量模型预测神经信号的能力。但是,这种方法真的有效吗?

误区一:大脑得分的局限性

研究者们发现,当前使用的随机训练-测试分割方法可能会夸大模型的预测能力。例如,在一个 fMRI 数据集上,一个简单的特征(编码时间自相关性)不仅超过了 LLMs 的表现,还解释了 LLMs 解释的大部分神经方差(Feghhi et al., 2024)。这意味着,当前的评估方法可能会忽视模型预测能力的局限性。

误区二:未训练模型的高大脑得分

研究者们还发现,未训练的 LLMs 也可以获得高的大脑得分。但是,这并不是因为它们捕捉到了额外的神经方差,而是因为它们简单地编码了句子长度和句子位置这两个特征(Feghhi et al., 2024)。这表明,未训练模型的高大脑得分可能是由于简单特征的影响,而不是因为它们真的像人类大脑一样处理语言。

误区三:训练模型的 brain scores

对于训练后的 LLMs,大部分大脑得分可以由句子长度、位置和静态词嵌入解释,而词义消歧和句法表示只解释了一小部分神经方差(Feghhi et al., 2024)。这意味着,训练模型的 brain scores 可能主要是由于简单特征的影响,而不是因为它们真的捕捉到了语言处理的核心方面。

结论

综上所述,当前评估大型语言模型与人类大脑相似性的方法可能存在误区。我们需要更好地理解 LLMs 是如何映射到神经信号的,并开发更加准确的评估方法。只有这样,我们才能真正地评估 LLMs 与人类大脑的相似性。

参考文献

Feghhi, E., Hadidi, N., Song, B., Blank, I. A., & Kao, J. C. (2024). What Are Large Language Models Mapping to in the Brain? A Case Against Over-Reliance on Brain Scores.

0 0 投票数
Article Rating
订阅评论
提醒
1 评论
最旧
最新 最多投票
内联反馈
查看所有评论
1
0
希望看到您的想法,请您发表评论x