御风而行：2024 KDD综合RAG基准挑战

破晓之际，挑战来临

在科技日新月异的今天，人工智能（AI）正以不可阻挡之势改变着人们的生活方式。然而，尽管大型语言模型（LLMs）如GPT-4取得了显著的进步，它们在提供准确、可靠的信息方面仍然面临诸多挑战。为了解决这一问题，Meta公司发起了2024 KDD杯元综合RAG基准挑战（Comprehensive RAG Benchmark Challenge），旨在推动检索增强生成（RAG）技术的发展。

RAG技术的核心在于，它通过检索外部信息源来增强模型的回答能力，从而有效减少信息的失真和虚假内容的生成。这一挑战不仅为参与者提供了一个展示其技术能力的平台，还为推动AI研究与开发提供了广阔的舞台。

何为RAG？

RAG（Retrieval-Augmented Generation）是一种利用外部信息源来增强生成能力的技术。具体来说，当一个问题被提出时，RAG系统会从大量的外部资源中检索相关的信息，然后生成一个基于这些信息的答案。这样的机制旨在提高回答的准确性，避免模型在缺乏知识时生成错误的信息。

然而，尽管RAG技术展现出巨大的潜力，许多挑战依然存在。例如，如何在大量信息中选择最相关的内容、如何减少回答问题的延迟、以及如何综合信息以解答复杂问题等，都是当前研究的热点。因此，Meta推出这一挑战，旨在为RAG系统的评估提供一个明确的基准和评价标准，促进创新和解决方案的进步。

挑战的结构与任务

2024 KDD杯元综合RAG基准挑战分为两个阶段。第一阶段对所有注册团队开放，旨在通过多次提交来提高模型的表现。第二阶段则是对前期表现优秀的团队进行更为严格的评估。

该挑战设定了三个主要任务，参与者需要在这些任务中展现其技术能力：

基于网络的检索摘要：参与者需要从每个问题提供的五个网页中检索信息，并将其凝练成准确的答案。
知识图谱与网络增强：该任务引入了模拟API，参与者需要通过这些API查询结构化数据，以获取相关信息并形成答案。
端到端RAG：在这一任务中，参与者需要处理50个网页和模拟API，以应对信息检索与整合的复杂挑战。

通过这三个任务，挑战希望引导参与者开发出更为复杂且有效的端到端RAG系统，以应对现实世界中的信息检索与整合问题。

评价标准

RAG系统的评价将根据回答质量进行评分。回答被分为四类：完美、可接受、缺失和错误：

完美：回答精确且无虚假信息。
可接受：回答虽然有小错误，但仍然有用。
缺失：未能提供所需信息。
错误：提供了错误或无关的信息。

评分将采用宏观平均法，基于问题的类型和实体的受欢迎程度进行加权。

参与者的机遇与奖励

此次挑战的奖金池达到31,500美元，所有三个任务均设有奖励。具体而言，前三名的团队将分别获得4,000美元、2,000美元和1,000美元的现金奖励。此外，每种复杂问题类型的第一名还将获得500美元的奖金。

通过参与这一挑战，团队不仅可以展示其技术能力，还有机会获得丰厚的奖励和宝贵的经验，为未来的AI研究与开发铺平道路。

未来展望

随着RAG技术的不断发展，未来的AI系统将能够更好地理解和处理信息，为用户提供准确、可靠的答案。Meta的这一挑战不仅为技术创新提供了契机，也为参与者提供了一个宝贵的平台。通过共同的努力，AI的未来将更加光明。

参考文献

Tu Vu et al., 「FreshLLMs: Refreshing Large Language Models with search engine augmentation」, arXiv, 10/2023.
Kai Sun et al., 「Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)?」, NAACL, 2024.
Ricardo Usbeck et al., 「QALD-10–The 10th challenge on question answering over linked data」, Semantic Web Preprint (2023).
Payal Bajaj et al., 「Ms marco: A human-generated machine reading comprehension dataset」, (2016).
Tom Kwiatkowski et al., 「Natural questions: a benchmark for question answering research」, Transactions of the Association for Computational Linguistics 7 (2019).