评估大型语言模型 (LLM) 问答系统中的检索组件

引言

随着大型语言模型（LLM）的发展，我们在自然语言处理（NLP）任务中看到了显著的进步，包括信息检索（IR）、文本生成和摘要生成。特别值得注意的是在问答（QA）任务中的巨大改进，即在给定包含答案的相关文档块的情况下生成准确的回答。然而，为了提高QA系统的准确性并减少LLM生成错误或幻觉的风险，检索增强生成（RAG）模型被证明是一种有前途的解决方案。这些模型整合了检索组件，从而为LLM提供必要的上下文以生成回复。

在本文中，我们将探讨如何有效评估RAG模型中的检索组件。传统的评估方法如精确度（Precision）、召回率（Recall）和F1分数在LLM的场景下可能不足以全面评估检索器的表现。因此，我们提出了一个新的评估框架LLM-retEval，以更好地反映检索器在LLM问答系统中的性能。

问答系统中的LLM

一个问答（QA）系统尝试基于提供的知识池中的相关上下文，为用户的自然语言查询提供准确的回复。在一个LLM问答系统中，这个过程通常分为两个独立的组件：

检索器（Retriever）：从文档集合中提取包含查询答案的文档子集。常见的方法如密集段落检索（Dense Passage Retrieval, DPR），将查询和文档编码到相同的向量空间，通过查询和每个文档的嵌入之间的距离选择相关文档。
生成器（Generator）：利用语言模型生成基于提取的相关文档的准确回复。

评估框架

为了评估检索器在QA系统中的性能，我们将其输出传递给生成器LLM以生成答案，同时将理想检索器的黄金文档也传递给同一生成器以生成答案。通过固定LLM参数并比较这两种配置生成的答案，我们可以清楚地了解检索器在端到端问答系统中的表现。

自动比较QA答案的方法

精确匹配（Exact Match, EM）：直接比较字符串是否完全相同，但可能会过于严格。
基于Token的指标：如ROUGE-1、BLEU和METEOR，量化文本在Token/单词级别的偏差。
基于嵌入的指标：如BERTScore，使用预训练的BERT嵌入来捕捉答案中的上下文信息。
基于LLM的评估：最近被用于评估QA系统，能够很好地捕捉答案的语义。

我们主要集中在基于LLM的评估方法来衡量答案的差异。

实验设置

数据集

我们使用NQ-open数据集进行实验。该数据集包含从相关的Wikipedia段落中提取的答案。尽管我们的评估方法不需要查询的黄金答案，但有了这些答案可以让我们全面评估模型性能，并仔细研究检索器相对于整体QA性能的表现。

检索和生成模型

在我们的实验中，我们使用密集检索方法，将文档块嵌入到向量空间，并基于查询和文档嵌入的余弦相似度选择前k个文档。生成组件使用两种最先进的语言模型：GPT-4和ChatGPT-Turbo。

结果

通过分析LLM-retEval的性能，我们可以了解传统指标的失败案例以及我们的评估方法如何解决这些局限性。我们的实验结果表明，传统指标如精确度和召回率可能无法充分捕捉LLM的能力，而我们的LLM-retEval方法能够更好地反映检索器的有效性。

质性分析

传统指标的失败案例包括未标注所有正确回答、搜索文档与标注数据的不一致以及检索器返回的接近但不相关的文档干扰生成器。

量化分析

通过比较不同k值下的模型表现，我们发现增加k值会提高召回率，但也可能增加LLM-retEval的失败案例。然而，LLM-retEval在不同检索文档数量下始终与整体QA性能保持高度一致。

故障案例的统计

我们对故障案例进行了分类，并分析了在不同k值下检索器和QA系统的整体表现。结果表明，LLM-retEval方法在捕捉检索器性能方面具有鲁棒性，并且与传统指标在排除故障案例后高度相关。

结论

本文提出了一种新的评估框架LLM-retEval，用于评估RAG问答模型中的检索组件。我们的研究表明，通过生成基于黄金相关文档的答案，可以提供检索器性能的可靠指示，并减少LLM问答系统中的错误。我们的结果表明，这种方法在捕捉检索器性能方面更加稳健，并且与传统指标在排除故障案例后高度相关。

参考文献

Vaibhav Adlakha et al., “Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering,” arXiv:2307.16877, 2023.
Garima Agrawal et al., “Can Knowledge Graphs Reduce Hallucinations in LLMs? A Survey,” arXiv:2311.07914 [cs.CL], 2024.
Marwah Alaofi et al., “Generative Information Retrieval Evaluation,” arXiv:2404.08137 [cs.IR], 2024.
Ricardo Baeza-Yates and Berthier Ribeiro-Neto, “Modern Information Retrieval,” ACM Press / Addison-Wesley, 1999.
Tom Brown et al., “Language Models are Few-Shot Learners,” NeurIPS, 2020.
Nick Craswell, “Mean Reciprocal Rank,” Springer US, Boston, MA, 1703-1703, 2009.
Florin Cuconasu et al., “The Power of Noise: Redefining Retrieval for RAG Systems,” arXiv:2401.14887 [cs.IR], 2024.
Hui Huang et al., “An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Models are Task-specific Classifiers,” arXiv:2403.02839 [cs.CL], 2024.
Gautier Izacard and Edouard Grave, “Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering,” EACL, 2021.
Kalervo Järvelin and Jaana Kekäläinen, “Cumulated gain-based evaluation of IR techniques,” ACM Trans. Inf. Syst., 20(4), 422-446, 2002.
Rong Jin et al., “Meta-scoring: automatically evaluating term weighting schemes in IR without precision-recall,” SIGIR, 2001.
Ehsan Kamalloo et al., “Evaluating Open-Domain Question Answering in the Era of Large Language Models,” ACL, 2023.
Vladimir Karpukhin et al., “Dense Passage Retrieval for Open-Domain Question Answering,” EMNLP, 2020.
Tom Kwiatkowski et al., “Natural Questions: A Benchmark for Question Answering Research,” TACL, 2019.
Alireza Salemi and Hamed Zamani, “Evaluating Retrieval Quality in Retrieval-Augmented Generation,” arXiv:2404.13781 [cs.CL], 2024.