在自然语言处理领域,大型语言模型(LLM)正改变知识传递方式,召回增强生成(RAG)作为新机制,突破传统生成模式局限,但其生成答案易出现「幻觉」,即事实错误。高效透明评估答案正确性和信实性成关键。
🌟 初遇 RAG —— 跨越知识的界限
科学探索中,模型面对超出内置知识范畴的问题,需从外部信息取答。RAG融合检索和生成,使答案基于模型所学并利用外部知识库佐证。传统评估方法在语义多样性及信息扩展时捉襟见肘,人工评估虽准确却成本高。本文提出以「正确性」和「信实性」为切入点,基于量化、轻量化 LLM 的评测流程,给出连续得分并为回答内部分statement提供详细解释。
🔍 正确性评估:拆解事实与信息对比的艺术
评估 RAG 答案正确性,即判断答案声明能否与「地面真相」匹配支持。将复杂答案拆解为简单声明,逐一验证。采用回召率和 F1 分数两种量化指标:回召率 $Recall=\frac{TP}{TP+FN}$,F1 分数 $F1=\frac{TP}{TP+0.5\times(FP+FN)}$。不同场景下,可依需求选择回召率过滤冗余或 F1 分数追求匹配,平衡信息充分性与精炼性。
🔗 信实性评估:从上下文中寻找支持的蛛丝马迹
信实性评估关注答案声明能否从上下文推导。以精确度定义:$Precision=\frac{Passed}{Passed+Failed}$,声明能从上下文直接推导为 PASSED,反之为 FAILED。此法降低表面相似性误判风险,为答案选择提供支持。
🛠️ 评测流程的三大构件:简化器、评估器与解析器
评估系统核心为三段式流程:
- 简化器(Simplifier)
将答案和地面真相文本拆分为独立声明,通过 LLM 少样本提示确保每条声明为可理解基本信息单位。 - 评估器(Evaluator)
逐个比较生成声明与参照,借助 LLM 语义理解识别语义对应关系。 - 解析器(Parser)
抽取评估器输出结构化信息,转换为数值指标。采用正则表达式确定性解析或 JSON 架构约束生成,后者在处理不确定性上更具鲁棒性。
📚 数据集与实验设置:从自然提问到维基百科评分
为验证评测框架,选用两个数据集:
📖 Natural Questions 数据集
含 396 个样本,关注答案正确性,与人工评注对比,采用 Spearman 的 ρ、Kendall 的 τ 及 F1 AUC 评估。
🌐 WikiEval 数据集
聚焦信实性评测,从维基百科抽题,由人工标注对比确定信实性,采用多层评分标准区分优劣答案。
⚙️ 实验探索:轻量化 LLM 如何角逐重量级评估者的宝座
实验探讨轻量级模型在 4-bit 和 16-bit 精度下的评估性能,采用 Llama 和 Gemma 系列模型。结果显示:正确性评估中,正则与约束生成各有优劣;密度分布图显示正确与错误答案分数分布有明显分离;信实性评估中,上下文信息对判断关键。轻量级 LLM 评测器在多项指标上媲美企业级评估器,为 RAG 系统评测提供新路径。
🚀 跨越挑战:解析策略与未来展望
解析技术分确定性解析和约束生成解析,前者快速高效但可能出错,后者保证格式一致性但时间成本高。正确与错误答案得分分布分离度越高,评估指标可靠性越强。未来可探索混合评测、多模型联合判断及优化解析策略。
✨ 总结:【真相就在细节之间】
这场奇幻评测之旅,揭开 RAG 系统生成回答背后的迷雾。轻量化 LLM 模型表现优异,为学术和应用带来新可能。未来,RAG 技术与评测方法的优化,将为自然语言处理领域注入更多活力。
参考文献
- Achiam, J. et al. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774.✅
- Adlakha, V. et al. (2023). Evaluating correctness and faithfulness of instruction-following models for question answering. Transactions of the Association for Computational Linguistics.✅
- Es, S. et al. (2023). RAGAS: Automated evaluation of retrieval augmented generation. Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations.✅
- Manakul, P. et al. (2023). SelfcheckGPT: Zero-resource black-box hallucination detection for generative large language models. In Proceedings of the Conference on Empirical Methods in Natural Language Processing.✅
- Zheng, L. et al. (2024). Judging LLM-as-a-Judge with MT-bench and Chatbot Arena. Advances in Neural Information Processing Systems, 36.✅