CRAG: 提升检索增强生成的全新基准

🌍 引言

在当今自然语言处理（NLP）的世界中，大型语言模型（LLMs）如同璀璨的明星，吸引了广泛的关注。然而，尽管它们在问答（QA）等任务中展现出惊人的能力，依然存在一个显著的问题——幻觉（hallucination）。这意味着这些模型有时会生成缺乏事实基础的答案，导致用户信任度下降。根据研究，GPT-4在回答有关快速变化或慢变化事实时的准确率不足15%。为了应对这一挑战，检索增强生成（Retrieval-Augmented Generation, RAG）应运而生，成为解决LLM知识匮乏问题的有力工具。

然而，现有的RAG数据集并未充分反映现实世界问答任务的多样性和动态性。为此，我们引入了CRAG（Comprehensive RAG Benchmark），一个包含4409对问答的基准，旨在为研究提供更具代表性和挑战性的数据集。

📊 问题描述

CRAG的设计目标是提供一个全面的问答基准，能够充分测试RAG系统在面对多样化问题时的能力。具体而言，我们定义了三个任务，以评估RAG系统在信息检索、结构化查询和问答生成方面的表现。每个任务都使用相同的问答对，但外部数据的可访问性不同，从而确保公平比较。

📑 数据集描述

CRAG包含来自五个领域（金融、体育、音乐、电影和开放领域）的问答对，以及用于信息检索的内容。我们构建了600多种问题模板，确保问题的多样性和真实性。此外，我们的问答对涵盖了简单问题和复杂问题，后者包括条件问题、比较问题、聚合问题、多跳问题等，充分反映了用户的实际需求。

📈 问答对的构建

问答对的构建分为两个部分：从知识图（KG）和网络内容中生成。我们设计了多种问题类型，以确保数据集的丰富性和动态性。例如，简单问题可能是「某人的出生日期」，而多跳问题则可能是「谁在安吉·李的最新电影中演出？」这样的设计使得CRAG能够有效评估模型在不同情况下的表现。

🕵️ 内容检索

为了模拟RAG的实际应用，CRAG还包含了来自真实搜索引擎的网页搜索结果，和模拟的知识图搜索。我们使用Brave Search API从网络中提取了大量HTML页面，并创建了包含260万个实体的模拟知识图。这些内容不仅提供了丰富的信息，还包含了可能的噪音，以便在真实场景中进行有效测试。

📏 评估指标

在评估RAG系统的性能时，我们采用了一套评分机制。每个答案根据其准确性被标记为「完美」、「可接受」、「缺失」或「错误」，并依此计算出最终分数。这种评估机制特别重视幻觉的影响，确保模型在生成答案时能够尽量避免谬误。

🧑‍🤝‍🧑 人工评估与自动评估

我们结合了人工评估和模型评估的方法，以确保评估结果的可靠性。通过对比人工评分和自动评估模型（如ChatGPT和Llama 3）的结果，我们能够更全面地了解RAG系统在不同任务下的表现。

🚀 基准测试

我们对多种RAG解决方案进行了评估，以确定CRAG的难度水平，并从中获取有价值的见解。初步结果显示，大多数先进的LLMs在CRAG上的准确率低于34%，而简单的RAG方案仅将准确率提高至44%。在业界最先进的RAG解决方案中，只有63%的问题能够被正确回答，且没有幻觉发生。这些结果强调了在处理动态、复杂问题时，RAG系统仍面临着不小的挑战。

📉 业界解决方案的表现

通过对比不同的RAG解决方案，我们发现，尽管一些业界解决方案在准确率方面有所提升，但在处理高动态性、低人气或高复杂度的问题时，其表现仍然不尽如人意。这一发现为未来的研究指明了方向，强调了构建更可靠的问答系统的必要性。

🔮 结论

CRAG的引入为检索增强生成领域铺平了道路，提供了一个全面且富有挑战性的基准。通过对现有RAG解决方案的深入分析，我们发现了许多改进的空间。未来，我们计划继续扩展CRAG，以适应多语言、多模态和多轮对话的需求，确保其在不断变化的研究环境中保持前沿地位。

📚 参考文献

Achiam, J. , et al. GPT-4 technical report. arXiv preprint arXiv:2303.08774, 2023.✅
AI@Meta. Llama 3 model card. 2024.
Bajaj, P. , et al. MS MARCO: A human generated machine reading comprehension dataset, 2018.✅
Brave Software. Brave Search API.
Chen, J. , et al. Benchmarking large language models in retrieval-augmented generation. arXiv preprint arXiv:2309.01431, 2023.✅