借一步网
作者:
在
最近,一篇名为 “Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval” 的论文引起了我的注意。这篇论文的作者 Yuwei Zhang, Jayanth Srinivasa, Gaowen Liu 和 Jingbo Shang 来自加州大学圣地亚哥分校和 Cisco。他们发现,即使是现在很火的大语言模型(LLM),在处理长文本时,也会出现“眼神不好使”的情况,导致推理能力下降。
“大模型:臣妾的眼睛不够用啊!”
我们知道,现在的大模型动辄就能处理几万字的文本,看起来非常厉害。但是,当我们需要模型从这些长文本中提取关键信息,并进行多步骤推理时,模型的表现就会大打折扣。
这就像让一个人在图书馆里找一本特定的书,如果图书馆只有几排书架,那很容易就能找到。但如果图书馆有几百排书架,那找起来就费劲了。
“长文本:臣妾的深度,你体会不到啊!”
为了解决这个问题,研究人员提出了 Chain-of-Thought (CoT) prompting 的方法,也就是让模型一步一步地思考,把复杂的问题分解成简单的步骤。
但是,这篇论文的作者发现,即使使用了 CoT,模型在长文本上的表现仍然不佳。这是为什么呢?
“CoT:我尽力了,奈何长文本太长了!”
作者通过实验发现,问题主要出在信息检索上。模型无法从长文本中准确地找到所有相关的隐式事实(implicit facts)。
隐式事实:那些没有明确写在文本中,但需要通过推理才能得到的隐含信息。
这就像你问一个人:“小明的爸爸的哥哥的儿子是谁?” 如果这个人不知道小明爸爸的哥哥是谁,那他就无法回答这个问题。
“模型:臣妾找不到啊!臣妾太难了!”
有趣的是,作者发现,虽然模型生成的 CoT tokens 没有明确地提到这些隐式事实,但是模型内部的 attention weights 却能有效地指向这些事实。
Attention weights:模型在处理文本时,会对不同的词语赋予不同的权重,表示模型对这些词语的关注程度。
这就像你在看书的时候,虽然你没有把每个字都念出来,但是你的眼睛却会不自觉地扫过那些重要的词语。
“Attention weights:我才是真正的幕后英雄!”
基于这个发现,作者提出了一个名为 Attrieval 的新方法。这个方法不需要额外的训练,就能有效地提高模型在长文本上的推理能力。
Attrieval 的核心思想是:利用 attention weights 来指导信息检索。具体来说,Attrieval 分为三个步骤:
“Attrieval:我来帮你划重点!”
作者在多个数据集上对 Attrieval 进行了评估,结果表明,Attrieval 能够显著提高模型在长文本上的推理能力。
例如,在 Deduction 数据集上,Attrieval 的准确率比 CoT 提高了 47%。在 MuSiQue 数据集上,Attrieval 的准确率也提高了 11%。
“Attrieval:我不是针对谁,我是说在座的各位,推理能力都比不上我!”
这篇论文提出了一个非常有趣的想法,即利用 attention weights 来指导信息检索,从而提高模型在长文本上的推理能力。Attrieval 方法不需要额外的训练,就能有效地提高模型的性能,具有很强的实用价值。
当然,这篇论文也存在一些局限性。例如,Attrieval 需要进行两次推理,这会增加计算成本。此外,Attrieval 在处理非常长的文本时,可能会出现性能下降的情况。
要发表评论,您必须先登录。
最近,一篇名为 “Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval” 的论文引起了我的注意。这篇论文的作者 Yuwei Zhang, Jayanth Srinivasa, Gaowen Liu 和 Jingbo Shang 来自加州大学圣地亚哥分校和 Cisco。他们发现,即使是现在很火的大语言模型(LLM),在处理长文本时,也会出现“眼神不好使”的情况,导致推理能力下降。
我们知道,现在的大模型动辄就能处理几万字的文本,看起来非常厉害。但是,当我们需要模型从这些长文本中提取关键信息,并进行多步骤推理时,模型的表现就会大打折扣。
这就像让一个人在图书馆里找一本特定的书,如果图书馆只有几排书架,那很容易就能找到。但如果图书馆有几百排书架,那找起来就费劲了。
为了解决这个问题,研究人员提出了 Chain-of-Thought (CoT) prompting 的方法,也就是让模型一步一步地思考,把复杂的问题分解成简单的步骤。
但是,这篇论文的作者发现,即使使用了 CoT,模型在长文本上的表现仍然不佳。这是为什么呢?
作者通过实验发现,问题主要出在信息检索上。模型无法从长文本中准确地找到所有相关的隐式事实(implicit facts)。
这就像你问一个人:“小明的爸爸的哥哥的儿子是谁?” 如果这个人不知道小明爸爸的哥哥是谁,那他就无法回答这个问题。
有趣的是,作者发现,虽然模型生成的 CoT tokens 没有明确地提到这些隐式事实,但是模型内部的 attention weights 却能有效地指向这些事实。
这就像你在看书的时候,虽然你没有把每个字都念出来,但是你的眼睛却会不自觉地扫过那些重要的词语。
基于这个发现,作者提出了一个名为 Attrieval 的新方法。这个方法不需要额外的训练,就能有效地提高模型在长文本上的推理能力。
Attrieval 的核心思想是:利用 attention weights 来指导信息检索。具体来说,Attrieval 分为三个步骤:
作者在多个数据集上对 Attrieval 进行了评估,结果表明,Attrieval 能够显著提高模型在长文本上的推理能力。
例如,在 Deduction 数据集上,Attrieval 的准确率比 CoT 提高了 47%。在 MuSiQue 数据集上,Attrieval 的准确率也提高了 11%。
这篇论文提出了一个非常有趣的想法,即利用 attention weights 来指导信息检索,从而提高模型在长文本上的推理能力。Attrieval 方法不需要额外的训练,就能有效地提高模型的性能,具有很强的实用价值。
当然,这篇论文也存在一些局限性。例如,Attrieval 需要进行两次推理,这会增加计算成本。此外,Attrieval 在处理非常长的文本时,可能会出现性能下降的情况。