GraphReader：基于图的智能体，增强大型语言模型的长文本处理能力

大型语言模型 (LLM) 在自然语言理解和生成方面取得了显著进步，但受限于上下文窗口和内存使用，它们在处理长文本时仍然面临挑战。现有的长文本处理方法主要分为模型级别和智能体级别，但都存在一定的局限性：模型级别方法训练成本高昂，且容易忽略长文本中的关键细节；智能体级别方法则难以捕捉多跳关系和长距离依赖，在处理超长文本时效果不佳。

为了解决这些问题，本文提出了一种名为 GraphReader 的基于图的智能体系统，它能够将长文本结构化为图，并利用智能体自主探索图结构，从而有效地处理长文本信息。

1. GraphReader 的工作原理

GraphReader 的工作流程主要分为三个阶段：图构建、图探索和答案推理。

1.1 图构建

将长文本分割成多个文本块 (Chunk)，并保留段落结构。
使用 LLM 从每个文本块中提取关键元素 (Key Element) 和原子事实 (Atomic Fact)。
将关键元素和原子事实构建成图结构，其中节点代表关键元素及其相关的原子事实，边代表节点之间的关系。

1.2 图探索

智能体根据问题和预先设定的理性计划，选择初始节点开始探索。
智能体首先探索节点的原子事实，然后深入阅读相关的文本块，并不断记录新的见解和反思当前情况，以优化探索过程。
智能体根据问题、理性计划和笔记内容，选择下一个要探索的相邻节点，直到收集到足够的信息来回答问题。

1.3 答案推理

将所有智能体收集到的笔记汇总，并使用 LLM 进行推理和生成最终答案。
LLM 首先分析每个笔记，并利用其他笔记中的信息进行补充和验证，最终综合所有信息生成最终答案。

2. 实验结果

GraphReader 在多个长文本问答基准测试中表现出色，包括多跳长文本问答 (HotpotQA、2WikiMultihopQA、MuSiQue) 和单跳长文本问答 (NarrativeQA)。

2.1 超越 GPT-4-128k

实验结果表明，GraphReader 在使用 4k 上下文窗口的情况下，在 16k 到 256k 的不同文本长度上，始终优于 GPT-4-128k。这表明 GraphReader 能够有效地利用图结构捕捉长距离依赖关系，并利用智能体进行高效的探索，从而在有限的上下文窗口内处理超长文本。

2.2 强大的召回能力

GraphReader 在关键信息召回方面也表现出色。在 HotpotWikiQA-mixup 数据集上，GraphReader 始终优于其他基线方法，即使在 256k 的超长文本长度下，仍然能够保持约 60% 的召回率。

3. 结论

GraphReader 是一种基于图的智能体系统，它能够有效地增强大型语言模型的长文本处理能力。通过将长文本结构化为图，并利用智能体进行自主探索，GraphReader 能够在有限的上下文窗口内捕捉长距离依赖关系，并高效地收集关键信息，从而在各种长文本问答任务中取得优异的成绩。

4. 局限性

GraphReader 目前依赖于闭源的 GPT-4 API，未来需要收集数据并训练开源模型，以便更好地服务于更广泛的社区。此外，智能体的效率取决于其规划和推理能力，未来需要进一步提升这些能力，以提高 GraphReader 的效率和性能。

GraphReader 的核心优势：图结构与智能体协同合作

GraphReader 的出色表现源于其巧妙的设计，它将图结构和智能体有机地结合在一起，充分发挥了各自的优势：

图结构： 图结构能够有效地组织长文本信息，捕捉文本块之间的长距离依赖关系和多跳关系，为智能体提供全局视野。
智能体： 智能体能够根据问题和理性计划，自主地探索图结构，并利用预定义函数进行精细化操作，从而高效地收集关键信息。

5. GraphReader 的关键组件

5.1 理性计划 (Rational Plan)

理性计划是 GraphReader 的核心组件之一，它指导智能体进行高效的图探索。智能体会根据问题，将复杂问题分解成多个步骤，并确定每个步骤所需的关键信息，从而形成一个清晰的行动计划。

5.2 节点选择 (Node Selection)

GraphReader 的另一个关键组件是节点选择机制。智能体不会盲目地探索所有节点，而是根据问题、理性计划和笔记内容，选择最有可能包含关键信息的节点进行探索，从而提高探索效率。

5.3 预定义函数 (Predefined Functions)

GraphReader 为智能体提供了一组预定义函数，例如：

read_chunk(List[ID])： 读取指定 ID 的文本块。
stop_and_read_neighbor()： 停止当前节点的探索，并转向相邻节点。
search_more()： 继续探索当前节点的文本块。
read_previous/subsequent_chunk()： 读取前一个或后一个文本块。
termination()： 终止探索过程。

这些函数使智能体能够执行精细化操作，例如选择性地阅读文本块、跳转到相邻节点、终止探索等，从而提高探索效率和准确性。

6. 未来方向

GraphReader 为解决 LLM 长文本处理问题提供了一种新思路，未来研究可以从以下几个方面进行扩展：

开源模型： 目前 GraphReader 依赖于闭源的 GPT-4 API，未来可以收集数据并训练开源模型，以便更好地服务于更广泛的社区。
智能体增强： 智能体的效率取决于其规划和推理能力，未来可以探索更强大的规划和推理算法，例如利用知识图谱或强化学习来提升智能体的性能。
多模态扩展： GraphReader 目前主要处理文本信息，未来可以扩展到多模态场景，例如将图像、视频等信息也纳入图结构中，并利用智能体进行多模态信息处理。

Q: 这篇论文试图解决什么问题？

A: 这篇论文介绍了一个名为GraphReader的系统，旨在解决大型语言模型（Large Language Models, LLMs）在处理长文本和复杂任务时面临的挑战。具体来说，尽管已有多种方法尝试优化LLMs以处理长文本，但它们在处理长输入时仍存在一些限制，例如上下文窗口的限制和内存使用问题。这些限制导致LLMs在处理长文本时可能会忽略重要细节，特别是在处理多跳（multi-hop）问题时。

为了克服这些问题，GraphReader通过以下几个关键步骤来增强LLMs处理长文本的能力：

将长文本分割成离散的块（chunks），提取关键信息，并将其压缩成关键元素和原子事实。
使用这些关键元素和事实构建一个图（graph），其中节点表示关键元素及其相关的原子事实。
通过一个代理（agent）系统自主地探索这个图，代理会根据问题逐步分析并制定合理计划，然后调用预定义的函数来读取节点内容和邻居信息，实现从粗到细的图探索。

通过这种方法，GraphReader能够有效捕捉长文本中的长距离依赖和多跳关系，并且通过代理的自主探索和笔记记录，优化处理过程，直到收集到足够的信息生成答案。

Q: 有哪些相关研究？

A: 论文中提到了与长文本处理相关的几个研究领域，包括：

长上下文大型语言模型（Long-Context LLMs）：
- 研究者们专注于通过位置插值（Positional Interpolation, PI）增强模型处理长上下文的能力，但这需要在全文长度的文本上进行训练，导致数据和训练成本显著增加。
- 一些方法如PoSE和SkipAlign研究了数据跳过策略，但这些方法可能会忽略长文本中的细节信息。
检索增强生成（Retrieval-Augmented Generation, RAG）：
- RAG利用大量文档数据库提取与任务相关的信息以辅助响应生成。
- 研究者们探索了不同的检索粒度，包括标记（tokens）、实体（entities）和块（chunks）。
代理用于检索（Agent for Retrieval）：
- 最近的工作越来越多地利用LLMs作为代理来处理复杂问题，使用它们强大的规划和反思能力。
- 例如，WebGPT模拟人类行为在互联网上搜索特定答案，而ReadAgent将文档组织成树形结构或分页页面。
变换器变体（Transformer Variants）：
- 提出了具有修改注意力机制的变换器变体，以解决长上下文问题，但这些模型可能会丢失早期信息。
其他相关工作：
- 包括对大型语言模型进行微调、修改位置嵌入、应用变换器变体等方法来优化长上下文任务的处理。

这些研究为GraphReader的设计提供了背景和基础，同时也展示了现有方法的局限性，GraphReader旨在通过图结构和代理系统的方法来克服这些限制。

Q: 论文如何解决这个问题？

A: 论文通过提出GraphReader系统来解决大型语言模型（LLMs）处理长文本的问题。GraphReader的解决方案主要包括以下几个关键步骤：

图结构构建（Graph Construction）：
- 将长文本分割成小块（chunks），并提取关键元素和原子事实。
- 将关键元素和原子事实构建成图，其中节点表示关键元素，边表示节点之间的关系。
代理初始化（Agent Initialization）：
- 代理首先制定一个理性的计划（Rational Plan），确定解决问题所需的关键信息。
- 选择初始节点，这些节点是图探索的起点。
图探索（Graph Exploration）：
- 代理使用预定义的函数自主探索图结构，包括读取节点内容、邻居节点和相关信息。
- 代理在探索过程中持续更新笔记本（notebook），记录相关信息。
信息收集与反思（Information Gathering and Reflection）：
- 代理在探索过程中，根据问题和理性计划，不断收集信息并进行反思，直到收集到足够的信息。
答案推理（Answer Reasoning）：
- 代理收集完所有信息后，使用链式思考（Chain-of-Thought）策略，分析每个笔记本中的内容，使用多数投票策略解决任何不一致性。
- 最终，代理综合所有可用信息生成最终答案。
实验验证（Experimental Validation）：
- 在多个长文本问答（QA）基准测试中，验证GraphReader的性能，包括单跳和多跳问题。

通过这种方法，GraphReader能够有效地处理长文本中的长距离依赖和多跳关系，同时在有限的上下文窗口内实现高效的信息检索和问题解答。

Q: 论文做了哪些实验？

A: 论文中进行了多项实验来评估GraphReader的性能，主要实验包括：

基准测试（Benchmark Evaluation）：
- 在两种类型的长文本问答（QA）基准测试上进行实验，包括多跳长文本QA（如HotpotQA、2WikiMultihopQA、MuSiQue）和单跳长文本QA（如NarrativeQA）。
- 还包括了LV-Eval中的HotpotWikiQA-mixup，这是一个多跳基准测试，具有五个不同文本长度级别：16k、32k、64k、128k和256k。
评估指标（Evaluation Metrics）：
- 使用了多个自动评估指标，如F1分数、精确匹配（Exact Match, EM）分数和LV-Eval优化的F1*分数。
- 为了评估答案的正确性，还实现了LLM Raters，使用LLM来评估答案的正确性，记为LLM-Rating-1（LR-1）和LLM-Rating-2（LR-2）。
与基线方法的比较（Comparison with Baseline Methods）：
- 将GraphReader与以下基线方法进行比较：检索增强生成（RAG）、长上下文LLM和基于代理的方法（如ReadAgent）。
主要结果（Main Results）：
- 展示了不同方法在四个多跳长文本基准测试和一个单跳长文本基准测试上的性能。
在极长文本任务上的评估（Evaluation on Extremely Long Context Tasks）：
- 研究了极长文本对GraphReader的影响，比较了不同方法在16k到256k不同文本长度级别上的性能。
消融研究（Ablation Study）：
- 分析了理性计划（Rational Plan）和节点选择（Node Selection）对GraphReader性能的影响。
- 评估了不同初始节点数量对性能的影响，以及块大小（Chunk Size）对GraphReader性能的影响。
进一步分析（Further Analysis）：
- 对推理成本（Inference Cost）进行了分析，比较了ReadAgent和GraphReader的平均令牌消耗。
- 对支持事实的召回率（Recall Rate Analysis）进行了评估，分析了不同方法在HotpotWikiQA-mixup数据集上的表现。

这些实验结果表明GraphReader在处理长文本和复杂问题时的性能优于现有的方法，并且能够高效地利用有限的上下文窗口来处理长距离依赖和多跳关系。

Q: 有什么可以进一步探索的点？

A: 尽管GraphReader在处理长文本方面取得了显著的成果，但仍有一些潜在的研究方向可以进一步探索：

开放源代码：目前GraphReader使用的是闭源的GPT-4 API。未来的工作可以包括收集数据、训练模型，并将其开源，以便更广泛地贡献于学术界和工业界。
提高代理的效率：代理的效率依赖于其规划和推理能力。未来的研究可以探索如何增强这些功能，以提高方法的有效性。
处理更长文本：尽管GraphReader在长文本处理方面表现出色，但可以进一步研究如何扩展其能力以处理更长的文本，例如通过改进图结构的构建和探索策略。
优化图结构：研究不同的图结构优化技术，如节点聚类、边剪枝等，以提高图的可扩展性和探索效率。
多模态输入：探索将GraphReader扩展到多模态输入，例如结合文本、图像和其他数据类型，以处理更丰富的信息。
跨领域应用：研究GraphReader在不同领域（如医疗、法律、金融等）的应用，并针对特定领域进行优化。
用户交互：开发更复杂的用户交互机制，允许用户在探索过程中提供反馈，以指导代理更有效地搜索和推理。
实时性能：研究如何提高GraphReader的实时性能，以便在需要快速响应的应用场景中使用。
鲁棒性和泛化能力：进一步研究GraphReader在面对噪声数据、不完整信息或领域外数据时的鲁棒性和泛化能力。
可解释性：提高GraphReader的决策过程的可解释性，帮助用户理解其推理过程和答案生成的逻辑。
能耗和环境影响：评估和优化GraphReader在训练和推理过程中的能耗，以减少对环境的影响。
多语言支持：扩展GraphReader以支持多种语言，使其能够处理不同语言的长文本数据。

这些探索点可以帮助GraphReader系统不断进步，更好地适应各种复杂和动态的环境。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了GraphReader，一个基于图的代理系统，旨在增强大型语言模型（LLMs）处理长文本的能力。以下是论文的主要内容总结：

问题背景：传统的LLMs在处理长文本时面临上下文窗口和内存使用的限制，尤其在处理多跳问题时可能会忽略重要细节。
GraphReader系统：提出了GraphReader，一个通过将长文本结构化为图并使用代理自主探索该图来处理长文本的系统。
系统组成：
- 图构建：将文本分割成块，提取关键元素和原子事实，构建图结构以捕捉长文本中的长距离依赖和多跳关系。
- 代理操作：代理基于问题制定理性计划，选择初始节点，并使用预定义函数探索图结构。
方法论：
- 代理初始化：包括制定解决问题的步骤计划和选择起始节点。
- 图探索：代理通过读取节点内容、邻居信息，并在探索过程中记录新见解。
- 答案推理：代理收集完信息后，使用链式思考策略生成最终答案。
实验：在多个长文本问答基准上评估GraphReader的性能，包括单跳和多跳问题，并与现有方法进行比较。
结果：GraphReader在不同上下文长度的长文本任务上均优于基线方法，显示出在处理长文本方面的优势。
消融研究：分析了理性计划和节点选择对性能的影响，以及不同初始节点数量和块大小对系统性能的作用。
进一步分析：评估了GraphReader在推理成本和支持事实召回率方面的表现。
结论：GraphReader成功地通过图结构和代理探索方法增强了LLMs的长文本处理能力。
局限性和未来工作：讨论了GraphReader的局限性，并提出了未来可能的研究方向。

整体而言，这篇论文提出了一个创新的系统，通过结构化长文本和代理探索的方法，有效地提高了LLMs处理长文本和复杂问题的能力。