测试LLMs长上下文推理极限：BABILong基准简介

近年来，大型语言模型（LLMs）的输入上下文大小显著增加。然而，现有的评估方法并未与时俱进，未能全面评估模型处理长上下文的效率。为弥补这一差距，我们引入了BABILong基准，旨在测试语言模型在处理分布在超长文档中的事实推理能力。BABILong包括一套多样化的20个推理任务，如事实链、简单归纳、演绎、计数和处理列表/集合。这些任务本身就具有挑战性，当所需的事实分散在长自然文本中时，更是难上加难。我们的评估显示，流行的LLMs只能有效利用10-20%的上下文，其性能随着推理复杂性的增加急剧下降。

引言

如今，LLMs和神经网络架构不断发展，尤其是在处理更长上下文方面取得了显著进步（OpenAI, 2023；Reid et al., 2024；Anthropic, 2024）。这些模型根据丰富的上下文信息生成文本的能力非常重要。例如，较长的上下文为模型提供了更多信息，以便其生成更准确、上下文相关且最新的响应。此外，长上下文能力可以通过提供更多的上下文示例、指令或强化学习中的示例轨迹来增强上下文学习（Chevalier et al., 2023；Agarwal et al., 2024；Lee et al., 2024）。

尽管这些模型能力有所进步，用于评估它们的基准测试却未能跟上。例如，目前的基准测试，如Longbench（Bai et al., 2023）和L-Eval（An et al., 2023）仅扩展到40,000个标记，而模型则能够处理数十万甚至数百万个标记。

BABILong基准概述

为了测试LLMs在处理极长文档中的推理能力，我们介绍了BABILong基准。BABILong包括一组多样化的20个推理任务，如事实链、简单归纳、演绎、计数和处理列表/集合，这些任务是任何旨在与人类对话的系统的前提（Weston et al., 2016）。我们使用PG19语料库中的书籍作为长自然文档的来源（Rae et al., 2020）。通过这种方式，BABILong可以构建几乎任意长度的任务，以适应新、更强大的模型的评估，并以可扩展和可控的方式进行。我们提供了预定义长度的集合，最长可达100万个标记，并在样本上评估模型，长度可达1100万个标记。

主要贡献

我们引入了BABILong，一个新的可扩展生成多任务基准，用于评估NLP模型在处理任意长文档中的性能。
我们评估了20多个近期长输入语言模型，涵盖各种大小、架构和上下文扩展方法。
我们发现流行的LLMs只能有效利用10-20%的上下文，且性能随着推理复杂性的增加急剧下降。检索增强生成方法未能表现出良好成绩，但针对特定任务的微调有所帮助。
我们展示了使用循环记忆Transformer在长达1100万个标记的输入文本上成功进行域内单事实问答，设定了单个模型处理序列长度的新纪录，扩展了神经网络的已知能力。

评估结果

有效上下文大小的评价

关于长上下文模型性能的一个重要问题是它们如何有效地利用输入上下文。理想情况下，模型应保持一致的高性能，而不受输入大小的影响。我们的基准测试表明，目前的LLMs并未有效利用其全部上下文。仅有15个测试模型中的24个能够在基线设置下正确回答85%以上的问题。

检索增强生成方法的效果

检索增强生成（RAG）是一种流行的语言模型解决方案，用于处理大量文本。我们实验了两种选项：按512个标记的块进行检索（RAG-C. ��和按句子进行检索（RAG-S）。实验结果表明，使用句子块的检索性能优于512标记段。✅

微调模型在BABILong上的表现

我们对GPT-3.5-Turbo、Mistral-7B-Instruct-v0.2、RMT（使用GPT-2（137M. ��为骨干）和Mamba（130M）模型进行了微调实验。微调结果显示，RMT在处理长上下文时表现出色，能够处理长度达1100万个标记的序列。✅

结论

本文介绍了BABILong，一个多样且可扩展的基准，旨在弥补现有基准在评估LLMs处理长上下文任务能力方面的不足。我们的实验表明，BABILong提供了一个更具代表性的长上下文推理评估框架。我们的研究结果揭示了流行的开源LLMs及GPT-4和RAG在有效长上下文利用方面的局限性。微调实验显示，即使是相对较小的模型如RMT（使用GPT-2（137M. ��）和Mamba（130M）也能解决BABILong任务。✅

参考文献

OpenAI. (2023).
Reid et al. (2024).
Anthropic. (2024).
Chevalier et al. (2023).
Agarwal et al. (2024).
Lee et al. (2024).
Bai et al. (2023).
An et al. (2023).
Rae et al. (2020).
Weston et al. (2016).

如需更多详细信息和数据代码，请访问BABILong GitHub。

Q: 这篇论文试图解决什么问题？

A: 这篇论文《BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack》试图解决的问题是，现有的大型语言模型（LLMs）在处理长文本上下文方面的能力虽然在不断增强，但目前的评估方法并没有跟上这一发展步伐，无法全面评估这些模型处理长上下文的效率。具体来说，论文指出以下几个问题：

上下文大小的增加：近年来，LLMs能够处理的输入上下文大小显著增加，但现有的评估基准（benchmarks）并没有相应扩展，仍然只评估到40,000个token左右，而模型能力已经达到数十万甚至更多token。
评估方法的不足：当前的评估方法没有充分考虑到模型在处理分散在长文本中的事实时的推理能力，例如事实链（fact chaining）、简单归纳（simple induction）、演绎（deduction）、计数（counting）以及处理列表/集合（handling lists/sets）等。
现有基准的局限性：现有的一些基准测试，如Longbench和L-Eval，虽然在一定程度上评估了模型的长上下文处理能力，但它们在评估模型在极端长文本中的推理能力方面存在局限。

为了解决这些问题，论文引入了一个新的基准测试BABILong，旨在测试语言模型在极长文档中跨事实推理的能力。BABILong包含了20个不同的推理任务，并且可以扩展到任意长度，以支持评估新一代具有增强能力的模型。

Q: 有哪些相关研究？

A: 论文中提到了多个与长上下文处理和评估大型语言模型（LLMs）相关的研究工作。以下是一些主要的相关研究：

Long Range Arena (LRA): 由Tay等人于2021年提出，是长上下文建模的先驱基准之一，包含从1到16千个token的不同长度的任务。
LongBench: 由Bai等人于2023年提出，包含6种真实和合成问题，涵盖摘要、多文档问答、代码完成等，样本平均长度为6k和13k token，最大长度为40k token。
Scrolls 和 ZeroSCROLLS: 由Shaham等人于2022年和2023年提出，包含问答、分类、摘要任务，平均长度从1.7k到49.3k token。
L-Eval: 由An等人于2023年提出，结合了20个较小的长序列数据集，并添加了4个新注释任务，涵盖多种问题风格和领域。
InfinityBench: 由Zhang等人于2024年提出，包含问答和摘要任务，最大样本长度为636K token。
RULER: 由Hsieh等人于2024年提出，是一个长上下文基准，采用「针在 haystack 中」的概念，引入了多跳追踪和聚合等新任务类别。
MMLU: Hendrycks等人于2020年提出，是一个多任务语言理解基准，衡量LLMs在各种知识领域的表现。
Recurrent Memory Transformer (RMT): 由Bulatov等人于2022年和2024年提出，是一种通过循环记忆机制处理长上下文的方法。
Mamba: 由Gu和Dao于2023年提出，是一种线性时间序列建模方法，使用选择性状态空间。
GPT-4: OpenAI于2023年提出的大型语言模型，具有处理长上下文的能力。
Llama-3: AI@Meta于2024年提出的模型，具有长上下文处理能力。
AutoCompressor: Chevalier等人于2023年提出，结合了RMT方法和从外部语料库检索。

这些研究工作为评估和提高LLMs在长上下文处理方面的能力提供了不同的方法和基准。论文通过与这些相关工作的比较，展示了BABILong基准在评估长上下文推理方面的先进性和挑战性。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤来解决现有评估方法无法全面测试大型语言模型（LLMs）处理长上下文的问题：

引入BABILong基准：论文提出了一个新的基准测试BABILong，它专门设计用来测试语言模型在极长文档中跨事实推理的能力。
多样化的推理任务：BABILong包含了20个不同的推理任务，这些任务包括事实链、简单归纳、演绎、计数和处理列表/集合等，这些任务都是根据人类与机器对话所需的基本推理技能设计的。
使用长自然文档：BABILong使用PG19语料库中的书籍作为长自然文档的来源，这些文档的长度和复杂性为评估模型提供了挑战。
可扩展性：BABILong允许构建几乎任意长度的任务，以适应评估新的、更强大的模型，提供了预定义的长度集，并且可以扩展到1百万token的长度。
评估现有模型：论文评估了多个流行的LLMs，包括不同大小、架构和上下文扩展方法的模型，以测试它们在BABILong上的性能。
性能分析：通过分析模型在不同任务和上下文长度下的表现，论文揭示了现有模型在利用上下文信息时的局限性，发现它们通常只有效利用了10-20%的上下文。
探索替代方法：论文探讨了除了在上下文中推理之外的其他方法，例如检索增强生成（Retrieval-Augmented Generation）方法和循环记忆变换器（Recurrent Memory Transformers, RMT），并评估了它们在BABILong任务上的表现。
提供资源：论文提供了BABILong基准数据和评估代码，以便研究社区可以访问和使用这些资源来评估自己的模型。

通过这些步骤，论文不仅提出了一个全面的评估框架，还通过实验结果揭示了现有模型在长上下文处理方面的不足，并为未来的模型开发和评估提供了指导。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验来评估和比较不同大型语言模型（LLMs）在处理长上下文方面的能力。以下是论文中提到的主要实验：

BABILong基准测试：作者创建了BABILong基准，包含20个推理任务，旨在测试语言模型在极长文档中跨事实推理的能力。
模型评估：作者评估了20多个最近的长输入语言模型，这些模型具有不同的大小、架构和上下文扩展方法，包括流行的LLMs和一些为长上下文处理特别设计的方法。
有效上下文大小评估：通过问答任务（QA1-QA3），研究了LLMs如何利用可用上下文。实验结果表明，当前的LLMs并没有有效地使用其全部上下文。
检索增强生成（RAG）方法评估：作者测试了RAG方法在BABILong上的表现，发现它在处理长上下文任务时表现不佳。
模型微调（Fine-tuning）：对GPT-3.5-Turbo、Mistral-7B-Instruct-v0.2、RMT（带有GPT-2（137M. ��后端）和Mamba（130M）模型进行了微调实验，以评估微调对模型性能的影响。✅
不同上下文长度的性能比较：作者比较了模型在不同上下文长度（从0K到10M tokens）的性能，以分析模型在处理不同长度上下文时的效率。
与其他基准的比较：作者将BABILong的结果与其他基准（如MMLU和RULER）进行了比较，以评估BABILong在捕捉模型行为差异方面的能力。
RMT性能分析：对RMT模型进行了详细的性能分析，包括在不同任务上的表现和在超出训练大小的长序列上的性能。
RAG与微调模型的比较：作者比较了RAG方法与微调模型在BABILong任务上的表现，发现微调可以显著提高模型在长上下文任务中的性能。
不同事实位置的性能分析：作者分析了在QA1任务中，当所有事实位于输入查询的同一位置时，模型的性能如何变化。

这些实验提供了对当前LLMs在长上下文处理能力方面的深入理解，并揭示了它们在这一领域的局限性。通过这些实验，作者能够评估和比较不同模型和方法在处理长文本时的效率和准确性。

Q: 有什么可以进一步探索的点？

A: 论文《BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack》提出了对大型语言模型（LLMs）在长上下文推理方面的评估方法，并指出了现有模型的一些局限性。以下是一些可以进一步探索的点：

改进上下文利用效率：研究如何提高模型对长上下文的有效利用率，目前模型仅利用了10-20%的上下文信息。
优化检索增强生成（RAG）方法：探索如何改进RAG方法，使其更好地处理长上下文和多跳推理任务。
扩展BABILong基准：考虑将BABILong应用于其他语言，或者增加更多类型的推理任务，以测试模型在更广泛场景下的表现。
微调策略的改进：研究不同的微调策略，以提高模型在特定任务上的性能，同时保持对其他任务的泛化能力。
模型架构的创新：开发新的模型架构，特别是那些能够更有效地处理长上下文信息的架构。
存储和计算效率的平衡：研究如何在保持模型性能的同时，优化存储和计算资源的使用，特别是在处理极长序列时。
减少数据泄露：探索新的方法来生成基准数据，以确保训练和测试数据之间的隔离，避免数据泄露问题。
提高模型的可解释性：研究如何提高模型在处理长上下文任务时的决策过程的透明度和可解释性。
跨领域应用：探索BABILong基准在不同领域（如医疗、法律、金融等）的应用，以及如何针对这些领域定制或改进任务。
模型鲁棒性研究：研究模型在面对错误信息、误导性事实或噪声数据时的鲁棒性，并探索提高鲁棒性的方法。
实时应用的可行性：考虑模型在实时应用场景中的可行性，例如在对话系统或在线问答环境中处理长上下文。
伦理和社会影响：研究LLMs在处理长上下文时可能带来的伦理和社会影响，例如偏见、隐私和信息安全问题。

这些探索点可以帮助研究者更深入地理解LLMs在长上下文处理方面的能力，并推动这一领域的进一步发展。

Q: 总结一下论文的主要内容

A: 论文《BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack》主要内容包括以下几个方面：

问题识别：指出了现有大型语言模型（LLMs）在处理长上下文方面的能力虽有显著提升，但现有的评估方法并未跟上这一进步，无法全面测试模型在长文本上下文中的推理能力。
BABILong基准介绍：为了填补这一空白，作者提出了BABILong基准测试，这是一个设计用来评估语言模型在极长文档中进行跨事实推理能力的工具。
任务设计：BABILong包含20个不同的推理任务，覆盖了事实链、简单归纳、演绎、计数和处理列表/集合等多种推理类型。
评估方法：论文描述了如何使用长自然文档和背景文本来构造任务，并通过增加无关文本的长度来调整任务难度，以此来评估模型在不同上下文长度下的性能。
实验结果：通过一系列实验，作者发现流行的LLMs在利用上下文信息方面存在局限性，通常只有效利用了10-20%的上下文，并且随着任务复杂性的增加，性能急剧下降。
替代方法评估：论文还评估了检索增强生成（RAG）方法和循环记忆变换器（RMT）等上下文扩展方法在BABILong任务上的表现。
性能分析：作者对不同模型在BABILong上的表现进行了深入分析，揭示了它们在长上下文处理能力方面的不足，并与其他基准测试结果进行了比较。
资源提供：论文提供了BABILong基准数据和评估代码的访问，以便研究社区可以使用这些资源来评估自己的模型。
结论与展望：作者总结了BABILong基准的主要贡献，并指出了现有模型在长上下文处理方面的局限性，同时对未来的研究方向提出了建议。
相关工作：论文还讨论了与长上下文处理相关的其他研究工作，包括现有的基准测试和数据集，以及它们与BABILong的比较。

总的来说，这篇论文通过提出BABILong基准测试，为评估和推动LLMs在长上下文推理方面的发展提供了一个有力的工具和评估框架。

引言