如何利用 RAGAs 框架评估检索增强生成 (RAG) 应用效果

导语： 近年来，随着大语言模型 (LLM) 的迅速发展，检索增强生成 (RAG) 技术应运而生，为信息检索和自然语言处理领域带来了新的突破。RAG 将 LLM 与外部知识库相结合，能够更准确、更智能地回答用户问题。然而，如何有效评估 RAG 应用的效果成为了一个关键问题。本文将介绍 RAGAs 框架，一种专门用于评估 RAG 流程的工具，并结合实际案例，详细阐述其使用方法和优势。

一、RAG 技术面临的评估挑战

传统的 LLM 评估方法主要关注模型的语言生成能力，而 RAG 应用的评估则更为复杂，需要考虑检索和生成两个环节的协同作用。具体来说，RAG 应用的评估面临以下挑战：

检索环节: 如何评估检索到的信息与用户问题的相关性？如何确保检索到所有必要的信息？
生成环节: 如何评估生成答案的真实性和相关性？如何判断答案是否忠实于检索到的信息？

为了解决上述挑战，我们需要一个专门针对 RAG 流程的评估框架，能够全面、客观地衡量 RAG 应用的性能。

二、RAGAs 框架：为 RAG 应用量身定制的评估利器

RAGAs (Retrieval-Augmented Generation Assessment) 框架应运而生，为 RAG 应用的评估提供了一套完整的解决方案。该框架的主要特点包括：

组件化评估: RAGAs 将 RAG 流程分解为检索和生成两个组件，并针对每个组件定义了相应的评估指标，例如：
- 检索组件: 上下文相关性 (context_relevancy)、上下文召回率 (context_recall)
- 生成组件: 真实性 (faithfulness)、答案相关性 (answer_relevancy)
无参考评估: 不同于传统的依赖人工标注答案的评估方法，RAGAs 采用无参考评估的方式，利用 LLM 自动判断答案的质量，大大降低了评估成本和主观性。
易于使用: RAGAs 提供了简单易用的 Python 接口，可以方便地集成到现有的 RAG 应用中。

三、RAGAs 框架使用方法详解

下面我们以一个简单的问答系统为例，演示如何使用 RAGAs 框架评估其性能。

1. 准备评估数据

首先，我们需要准备一些测试问题 (question)、标准答案 (ground_truths) 以及对应的检索结果 (contexts)。其中，ground_truths 仅用于计算 context_recall 指标，其他指标的计算无需人工标注。

from datasets import Dataset

questions = [
    "法国的首都是哪里？",
    "谁发明了电话？",
    "珠穆朗玛峰有多高？",
]

ground_truths = [
    ["法国的首都是巴黎。"],
    ["亚历山大·格拉汉姆·贝尔发明了电话。"],
    ["珠穆朗玛峰高约8848.86米。"],
]

# 模拟检索结果
contexts = [
    ["法国是一个位于欧洲西部的国家，其首都和最大城市是巴黎。"],
    ["电话是由亚历山大·格拉汉姆·贝尔发明的。"],
    ["珠穆朗玛峰是世界上海拔最高的山峰，海拔8848.86米。"],
]

# 将数据组织成 Hugging Face 数据集格式
data = {
    "question": questions,
    "contexts": contexts,
    "ground_truths": ground_truths,
}
dataset = Dataset.from_dict(data)

2. 使用 RAG 流程生成答案

接下来，我们需要使用 RAG 流程对测试问题进行回答，并将生成的答案 (answer) 添加到数据集中。

# ... RAG 流程代码 ...

answers = []
for question in questions:
    answer = rag_pipeline.run(question)
    answers.append(answer)

dataset = dataset.add_column("answer", answers)

3. 使用 RAGAs 框架进行评估

最后，我们可以使用 RAGAs 框架对 RAG 流程进行评估。

from ragas import evaluate
from ragas.metrics import (
    context_precision,
    context_recall,
    faithfulness,
    answer_relevancy,
)

# 选择需要评估的指标
metrics = [
    context_precision,
    context_recall,
    faithfulness,
    answer_relevancy,
]

# 进行评估
results = evaluate(dataset=dataset, metrics=metrics)

# 打印评估结果
print(results.to_pandas())

四、RAGAs 框架的优势和未来展望

RAGAs 框架的出现，为 RAG 应用的评估提供了一种高效、客观的解决方案。相比传统的评估方法，RAGAs 框架具有以下优势：

自动化程度高: 无需人工标注答案，大大降低了评估成本。
评估指标全面: 涵盖了检索和生成两个环节的关键指标，能够更全面地反映 RAG 应用的性能。
易于使用: 提供简单易用的 Python 接口，方便集成到现有的 RAG 应用中。

未来，随着 RAG 技术的不断发展，RAGAs 框架也将不断完善和改进，为 RAG 应用的评估提供更加精准、高效的工具和方法。

参考文献

Monigatti, Leonie. “Evaluating RAG Applications with RAGAs.” 宝玉的分享, 13 Dec. 2023, baoyu.io/translations/rag/evaluating-rag-applications-with-ragas.
“Py之Ragas：Ragas(一款用于评估检索增强生成RAG流程的评估框架)的简介、安装、使用方法之详细攻略.” CSDN, blog.csdn.net/qq_41185868/article/details/131238556.
“如何利用框架，使用大模型评估RAG效果（附文档代码） – 大模型知识库|大模型训练|开箱即用的企业大模型应用平台|智能体开发|53AI.” 53AI, www.53ai.com/news/qianyanjishu/2285.html.