Ashkan Alinejad, Krtin Kumar, and Ali Vahdat. 2024. Evaluating the Retrieval Component in LLM-Based Question Answering Systems. In Proceedings of Make sure to enter the correct conference title from your rights confirmation email (Conference acronym ’XX). ACM, New York, NY, USA, 6 pages. https://doi.org/XXXXXXX.XXXXXXX
近年来,大型语言模型(LLM)在问答系统中的应用取得了显著进展,但同时也面临着生成不准确回答或“幻觉”的风险。为了提高问答系统的准确性,检索增强生成(RAG)模型应运而生,该模型集成了检索组件,用于检索相关文档片段,为LLM生成回答提供必要的上下文。
传统检索评估方法的局限性
传统的检索评估方法通常依赖于诸如Precision、Recall和F1 score等指标,这些指标将检索到的文档片段与人工标注的片段进行比较,或者考虑检索结果的顺序,例如Normalized Discounted Cumulative Gain (NDCG) 或 Mean Reciprocal Rank (MRR)。
然而,这些传统指标在评估LLM驱动的聊天机器人中的检索组件性能时存在一些局限性。首先,传统指标可能无法完全捕捉LLM的能力,因为即使检索器不完善,LLM也可能生成准确的答案。其次,将检索器作为独立组件进行评估忽略了其结果对下游任务的影响。例如,检索到的文档片段即使与问题高度相关,但也可能包含无关信息,从而误导LLM生成不准确的答案。
LLM-retEval:一种新的检索评估框架
为了解决传统评估方法的局限性,本文提出了一种名为LLM-retEval的框架,用于评估RAG模型中检索组件的性能。该框架的核心思想是:通过将检索到的文档和人工标注的文档分别输入到答案生成LLM中,并比较生成的答案,从而更准确地评估检索器的有效性。
LLM-retEval框架主要包括以下三个步骤:
实验结果分析
在NQ-open数据集上的实验结果表明,LLM-retEval能够有效地识别传统指标无法捕捉到的检索失败案例,例如:
实验结果还表明,LLM-retEval与整体问答性能高度相关,而传统指标则低估了LLM从非标注文档片段生成正确答案的能力,并且高估了检索器在处理无关文档片段方面的能力。
结论
本文的研究表明,在评估LLM驱动的问答系统中检索组件的性能时,需要考虑LLM的能力和下游任务的影响。LLM-retEval框架提供了一种更准确、更全面的评估方法,可以有效地识别传统指标无法捕捉到的检索失败案例,并与整体问答性能高度相关。
参考文献