仅限于管段边界内。由于计算繁重的FFN层(其相对于隐藏大小进行二次缩放),较大的Transformer模型往往显示出相对于序列长度的二次方缩放。然而,在大于32,000的超长序列上,它们会回落到二次缩放。对于具有多个片段的序列(在本研究中>512),RMT需要的Flop比非循环模型少,并且可以将Flop的数量减少高达×295倍。RMT为较小的型号提供了更大的相对FLOP减少,但在绝对数字上,OPT-175B型号的×29倍减少是非常显著的。 Read less
仅限于管段边界内。由于计算繁重的FFN层(其相对于隐藏大小进行二次缩放),较大的Transformer模型往往显示出相对于序列长度的二次方缩放。然而,在大于32,000的超长序列上,它们会回落到二次缩放。对于具有多个片段的序列(在本研究中>512),RMT需要的Flop比非循环模型少,并且可以将Flop的数量减少高达×295倍。RMT为较小的型号提供了更大的相对FLOP减少,但在绝对数字上,OPT-175B型号的×29倍减少是非常显著的。 Read less
为了测试记忆能力,我们构建了需要记忆简单事实和基本推理的合成数据集。任务输入由一个或几个事实和一个问题组成,这个问题只能通过使用所有这些事实来回答。为了增加任务难度,我们添加了与问题或答案无关的自然语言文本。这些文本就像噪音一样,所以模型的任务是将事实从不相关的文本中分离出来,并用它们来回答问题。该任务分为6个类别,每个类别代表一个单独的答案选项。事实是使用bAbI数据集(Weston等人,2016)生成的,而背景文本来自QuALITY (Pang等人,2022)长QA数据集中的问题。 Read less
为了测试记忆能力,我们构建了需要记忆简单事实和基本推理的合成数据集。任务输入由一个或几个事实和一个问题组成,这个问题只能通过使用所有这些事实来回答。为了增加任务难度,我们添加了与问题或答案无关的自然语言文本。这些文本就像噪音一样,所以模型的任务是将事实从不相关的文本中分离出来,并用它们来回答问题。该任务分为6个类别,每个类别代表一个单独的答案选项。事实是使用bAbI数据集(Weston等人,2016)生成的,而背景文本来自QuALITY (Pang等人,2022)长QA数据集中的问题。 Read less
Scaling Transformer to 1M tokens and beyond with RMT 这份技术报告展示了循环记忆的应用,以扩展 BERT 的上下文长度,这是自然语言处理中最有效的基于 Transformer 的模型之一。通过利用循环记忆 Transformer 架构,我们成功地将模型的有效上下文长度增加到前所未有的 200 万个标记,同时保持高记忆检索精度。我们的方法允许存储和处理局部和全局信息,并通过使用递归实现输入序列段之间的信息流。我们的实验证明了我们方法的有效性,这具有巨大的潜力来增强自然语言理解和生成任务的长期依赖处理,并为记忆密集型应用程序启用大规模上下文处理。
2304.11062.pdf (arxiv.org)