Adlakha, V. , BehnamGhader, P., Lu, X. H., Meade, N., & Reddy, S. (2023). Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering. arXiv:2307.16877.✅
Bai, J. , Bai, S., Chu, Y., Cui, Z., Dang, K., Deng, X., … & Zhu, T. (2023). Qwen Technical Report. arXiv preprint arXiv:2309.16609.✅
Bang, Y. , Cahyawijaya, S., Lee, N., Dai, W., Su, D., … & Fung, P. (2023). A Multitask, Multilingual, Multi-modal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity. arXiv:2302.04023.✅
BELLEGroup. (2023). BELLE: Be Everyone’s Large Language model Engine. https://github.com/LianjiaTech/BELLE. Accessed: 2024-01-10.
Bian, N. , Liu, P., Han, X., Lin, H., Lu, Y., He, B., & Sun, L. (2023). A Drop of Ink Makes a Million Think: The Spread of False Information in Large Language Models. arXiv:2305.04812.✅
Borgeaud, S. , Mensch, A., Hoffmann, J., Cai, T., Rutherford, E., … & Sifre, L. (2022). Improving language models by retrieving from trillions of tokens. arXiv:2112.04426.✅
Cai, D. , Wang, Y., Bi, W., Tu, Z., Liu, X., Lam, W., & Shi, S. (2019a). Skeleton-to-Response: Dialogue Generation Guided by Retrieval Memory. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 1219–1228. Minneapolis, Minnesota: Association for Computational Linguistics.✅
Cai, D. , Wang, Y., Bi, W., Tu, Z., Liu, X., & Shi, S. (2019b). Retrieval-guided Dialogue Response Generation via a Matching-to-Generation Framework. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 1866–1875. Hong Kong, China: Association for Computational Linguistics.✅
Cao, M. , Dong, Y., Wu, J., & Cheung, J. C. K. (2020). Factual Error Correction for Abstractive Summarization Models. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 6251–6258. Online: Association for Computational Linguistics.✅
Chang, Y. , Wang, X., Wang, J., Wu, Y., Yang, L., … & Xie, X. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.✅
Chiang, W. -L., Li, Z., Lin, Z., Sheng, Y., Wu, Z., … & Xing, E. P. (2023). Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.✅
Cui, J. , Li, Z., Yan, Y., Chen, B., & Yuan, L. (2023). ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases. arXiv:2306.16092.✅
Drozdov, A. , Sch¨arli, N., Aky¨urek, E., Scales, N., Song, X., … & Zhou, D. (2023). Compositional Semantic Parsing with Large Language Models. In The Eleventh International Conference on Learning Representations.✅
Edward Beeching, N. H. S. H. N. L. N. R. O. S. L. T. T. W., Cl´ementine Fourrier. (2023). Open LLM Leaderboard. https://huggingface.co/spaces/HuggingFaceH4/open llm leaderboard. Accessed: 2024-01-10.✅
Guo, B. , Zhang, X., Wang, Z., Jiang, M., Nie, J., … & Wu, Y. (2023). How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection. arXiv:2301.07597.✅
Guu, K. , Lee, K., Tung, Z., Pasupat, P., & Chang, M.-W. (2020). REALM: Retrieval-Augmented Language Model Pre-Training. In Proceedings of the 37th International Conference on Machine Learning, ICML’20. JMLR.org.✅
He, H. , Zhang, H., & Roth, D. (2022). Rethinking with Retrieval: Faithful Large Language Model Inference. arXiv:2301.00303.✅
Hendrycks, D. , Burns, C., Basart, S., Zou, A., Mazeika, M., … & Steinhardt, J. (2021). Measuring Massive Multitask Language Understanding. In International Conference on Learning Representations.✅
Huang, Y. , Bai, Y., Zhu, Z., Zhang, J., Zhang, J., … & He, J. (2023). C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models. arXiv preprint arXiv:2305.08322.✅
Izacard, G. , & Grave, E. (2021). Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, 874–880. Online: Association for Computational Linguistics.✅
Izacard, G. , Lewis, P., Lomeli, M., Hosseini, L., Petroni, F., … & Grave, E. (2022). Atlas: Few-shot Learning with Retrieval Augmented Language Models. arXiv:2208.03299.✅
Ji, Z. , Lee, N., Frieske, R., Yu, T., Su, D., … & Fung, P. (2023). Survey of Hallucination in Natural Language Generation. ACM Comput. Surv., 55(12).✅
Lewis, P. , Perez, E., Piktus, A., Petroni, F., Karpukhin, V., … & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In Proceedings of the 34th International Conference on Neural Information Processing Systems, NIPS’20. Red Hook, NY, USA: Curran Associates Inc. ISBN 9781713829546.✅
Li, D. , Rawat, A. S., Zaheer, M., Wang, X., Lukasik, M., … & Kumar, S. (2023a). Large Language Models with Controllable Working Memory. In Findings of the Association for Computational Linguistics: ACL 2023, 1774–1793. Toronto, Canada: Association for Computational Linguistics.✅
Li, X. , Zhang, T., Dubois, Y., Taori, R., Gulrajani, I., … & Hashimoto, T. B. (2023b). AlpacaEval: An Automatic Evaluator of Instruction-following Models. https://github.com/tatsu-lab/alpaca eval. Accessed: 2024-01-10.✅
Li, X. , Zhu, X., Ma, Z., Liu, X., & Shah, S. (2023c). Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks. arXiv:2305.05862.✅
Liu, N. F., Zhang, T., & Liang, P. (2023). Evaluating Verifiability in Generative Search Engines. arXiv:2304.09848.✅
Maynez, J. , Narayan, S., Bohnet, B., & McDonald, R. (2020). On Faithfulness and Factuality in Abstractive Summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 1906–1919. Online: Association for Computational Linguistics.✅
OpenAI. (2022). Chatgpt: Optimizing language models for dialogue. https://openai.com/blog/chatgpt. Accessed: 2024-01-10.
Peng, B. , Galley, M., He, P., Cheng, H., Xie, Y., … & Gao, J. (2023). Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback. arXiv:2302.12813.✅
Qin, Y. , Liang, S., Ye, Y., Zhu, K., Yan, L., … & Sun, M. (2023). ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs. arXiv:2307.16789.✅
Raunak, V. , Menezes, A., & Junczys-Dowmunt, M. (2021). The Curious Case of Hallucinations in Neural Machine Translation. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1172–1183. Online: Association for Computational Linguistics.✅
Ren, R. , Wang, Y., Qu, Y., Zhao, W. X., Liu, J., … & Wang, H. (2023). Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation. arXiv:2307.11019.✅
Q: 这篇论文试图解决什么问题?
A: 这篇论文探讨了如何通过检索增强生成(Retrieval-Augmented Generation, RAG)来减轻大型语言模型(Large Language Models, LLMs)的幻觉问题。幻觉问题指的是语言模型可能会生成与给定上下文无关或事实错误的信息。尽管RAG被认为是解决这一挑战的有前途的方法,但现有研究缺乏对RAG对不同LLMs影响的严格评估,这使得难以确定RAG在不同LLMs中的潜在瓶颈。
检索增强模型(Retrieval-Augmented Models):这类研究探讨了如何通过检索外部知识来提高语言模型的生成准确性和可靠性。相关研究包括Guu et al. (2020), Lewis et al. (2020), Borgeaud et al. (2022), Izacard et al. (2022) 等。
大型语言模型(Large Language Models, LLMs)的评估:这些研究关注于如何全面评估LLMs的能力,包括GLUE (Wang et al. 2019b), SuperCLUE (Wang et al. 2019a), MMLU (Hendrycks et al. 2021), AGIEval (Zhong et al. 2023), C-Eval (Huang et al. 2023), AlpacaEval (Li et al. 2023b), OpenLLM Leaderboard (Edward Beeching 2023) 等。
处理噪声和错误信息:研究了LLMs在面对噪声信息和错误信息时的鲁棒性,例如Cao et al. (2020), Raunak, Menezes, and Junczys-Dowmunt (2021), Ji et al. (2023) 等。
知识更新和领域特定专业知识:探讨了LLMs在知识更新和缺乏领域特定专业知识方面的挑战,如He, Zhang, and Roth (2022), Li et al. (2023c), Shen et al. (2023) 等。
检索增强生成的评估:研究了如何在现有的问答数据集上评估LLMs的RAG能力,例如Adlakha et al. (2023)。
安全性和责任:评估了LLMs在安全性和责任方面的表现,如CValues (Xu et al. 2023a)。
人类考试和工具使用:研究了LLMs在模拟人类考试和工具使用方面的能力,如M3Exam (Zhang et al. 2023), ToolBench (Qin et al. 2023)。
大型语言模型(LLM)如ChatGPT和ChatGLM的出现,标志着人工智能领域取得了重大突破。它们展现出惊人的通用能力,能够胜任多种任务,例如文本生成、问答和翻译。然而,这些模型也存在一些固有的缺陷,例如事实性幻觉、知识过时以及缺乏领域专业知识。
为了克服这些缺陷,检索增强生成(RAG)应运而生。RAG通过将外部知识库与LLM结合,赋予模型更强大的信息获取能力,从而生成更准确、更可靠的答案。
RAG的四个关键能力
然而,RAG并非万能药。外部知识库中存在大量噪声信息,甚至虚假新闻,这给检索引擎带来了准确获取所需知识的挑战。另一方面,LLM本身也存在着不可靠的生成问题。它们可能被上下文中的错误信息误导,并在生成过程中出现幻觉,导致最终生成的文本超出外部信息的范围。
因此,为了更好地理解RAG在LLM中的应用,我们需要对LLM在RAG中所需要的关键能力进行评估。本文将探讨四个关键能力:
1. 噪声鲁棒性: LLM能够从包含噪声的文档中提取有用信息。噪声文档是指与问题相关,但并不包含答案信息的文档。例如,对于问题“谁获得了2022年诺贝尔文学奖?”,噪声文档可能包含关于2021年诺贝尔文学奖的报道。
2. 负面拒绝: 当检索到的文档中不包含所需知识时,LLM能够拒绝回答问题。在现实场景中,搜索引擎经常无法检索到包含答案的文档。在这种情况下,模型需要具备拒绝识别能力,避免生成误导性内容。
3. 信息整合: LLM能够整合来自多个文档的信息,回答复杂问题。例如,对于问题“ChatGPT的iOS应用和API分别在什么时候发布?”,LLM需要提供ChatGPT iOS应用和ChatGPT API的发布日期。
4. 反事实鲁棒性: LLM能够识别检索到的文档中已知事实错误的风险。当LLM通过指令被告知检索到的信息存在潜在风险时,它需要能够识别这些风险。
检索增强生成基准测试 (RGB)
为了对LLM在RAG中的能力进行评估,本文创建了检索增强生成基准测试 (RGB)。RGB包含英语和中文版本,旨在评估LLM在上述四个方面的能力。
RGB的构建过程如下:
1. 问答实例生成: 从最新的新闻文章中提取事件、问题和答案。例如,对于一篇关于“2022年诺贝尔奖”的报道,ChatGPT可以生成相应的事件、问题和关键信息。
2. 使用搜索引擎检索: 使用Google Search API检索与每个问题相关的网页,并提取相应的文本片段。同时,将这些网页的文本内容转换为长度不超过300个token的文本块。使用开源密集检索模型,选择与问题最匹配的30个文本块。这些检索到的文本块,以及搜索API提供的片段,将作为外部文档。
3. 构建每个能力的测试集: 根据LLM的四个基本能力,将数据集划分为四个测试集。为了评估噪声鲁棒性,根据所需的噪声比例,对负面文档进行抽样。对于负面拒绝,所有外部文档都来自负面文档。对于信息整合能力,根据已生成的问题,进一步构建数据。这包括扩展或改写这些问题,使其答案包含多个方面。例如,问题“谁获得了2023年超级碗的MVP?”可以改写为“谁获得了2022年和2023年超级碗的MVP?”。因此,回答这类问题需要利用来自多个文档的信息。与前三个能力不同,反事实鲁棒性的数据仅基于模型的内部知识构建。根据上述生成的问题,使用ChatGPT自动生成模型已知的知识。具体来说,使用提示让模型生成已知的问题和答案。例如,基于问题“谁获得了2022年诺贝尔生理学或医学奖?”,模型将生成已知问题“谁获得了2021年诺贝尔文学奖?”,并回答“阿卜杜勒拉扎克·古尔纳”。然后,手动验证生成的答案,并按照上述方法检索相关文档。为了使文档包含事实错误,手动修改答案,并替换文档中相应的部分。
最终,RGB包含600个基本问题,以及200个用于信息整合能力的额外问题和200个用于反事实鲁棒性能力的额外问题。其中一半的实例为英语,另一半为中文。
评估指标
RGB主要评估LLM是否能够利用提供的外部文档获取知识,并生成合理的答案。评估指标包括:
1. 准确率: 用于评估噪声鲁棒性和信息整合能力。采用精确匹配方法,如果生成的文本包含与答案完全匹配的部分,则视为正确答案。
2. 拒绝率: 用于评估负面拒绝能力。当仅提供噪声文档时,LLM应该输出特定内容 – “由于文档中信息不足,我无法回答这个问题。”(我们使用指令告知模型)。如果模型生成此内容,则表示成功拒绝。
3. 错误检测率: 用于评估模型是否能够检测文档中的事实错误(反事实鲁棒性)。当提供的文档包含事实错误时,模型应该输出特定内容 – “提供的文档中存在事实错误。”(我们使用指令告知模型)。如果模型生成此内容,则表示模型已检测到文档中的错误信息。
4. 错误纠正率: 用于评估模型在识别错误后是否能够提供正确答案(反事实鲁棒性)。要求模型在识别事实错误后生成正确答案。如果模型生成正确答案,则表示模型能够纠正文档中的错误。
实验结果与分析
本文对六个最先进的LLM进行了评估,包括ChatGPT、ChatGLM-6B. ChatGLM2-6B、Vicuna-7b、Qwen-7B-Chat和BELLE-7B。实验结果表明,尽管RAG可以提高LLM的响应准确率,但它们在上述四个方面仍然存在显著的挑战。✅
1. 噪声鲁棒性: 实验结果表明,LLM在一定程度上表现出噪声鲁棒性,但当存在相关信息时,它们倾向于混淆相似信息,并经常生成不准确的答案。例如,当面对关于2022年诺贝尔文学奖的问题时,如果外部文档中存在关于2021年诺贝尔文学奖的噪声文档,LLM可能会感到困惑,并提供不准确的答案。
2. 负面拒绝: 实验结果表明,当外部文档中不包含相关信息时,LLM经常无法拒绝回答问题,并生成错误的答案。
3. 信息整合: 实验结果表明,LLM缺乏从多个文档中进行总结的能力。因此,如果需要多个文档才能回答问题,LLM通常无法提供准确的答案。
4. 反事实鲁棒性: 实验结果表明,即使LLM包含所需知识,并通过指令被告知检索到的信息存在潜在风险,它们仍然倾向于相信并优先考虑检索到的信息,而不是它们自己的现有知识。
未来方向
实验结果表明,现有的RAG方法仍然存在一些重要的挑战,需要进一步解决。为了确保LLM能够生成准确可靠的答案,需要谨慎使用RAG,并进行精心设计。
未来研究方向包括:
结论
本文对LLM在检索增强生成中的四个关键能力进行了评估,并构建了检索增强生成基准测试 (RGB)。实验结果表明,现有的LLM在四个方面都存在局限性。这表明,要有效地将RAG应用于LLM,还需要进行大量的研究工作。
参考文献
Q: 这篇论文试图解决什么问题?
A: 这篇论文探讨了如何通过检索增强生成(Retrieval-Augmented Generation, RAG)来减轻大型语言模型(Large Language Models, LLMs)的幻觉问题。幻觉问题指的是语言模型可能会生成与给定上下文无关或事实错误的信息。尽管RAG被认为是解决这一挑战的有前途的方法,但现有研究缺乏对RAG对不同LLMs影响的严格评估,这使得难以确定RAG在不同LLMs中的潜在瓶颈。
具体来说,论文的主要贡献和解决的问题包括:
总体而言,这篇论文试图通过创建一个全面的评估基准来深入理解RAG在LLMs中的应用,并识别现有方法中的关键问题,从而为未来的研究提供指导。
Q: 有哪些相关研究?
A: 论文中提到的相关研究主要集中在以下几个领域:
这些相关研究为本文提出的RGB基准提供了理论和实证基础,并帮助确定了评估LLMs在RAG中所需能力的各个方面。
Q: 论文如何解决这个问题?
A: 论文通过以下几个步骤来解决大型语言模型(LLMs)在检索增强生成(RAG)中面临的挑战:
通过这些步骤,论文不仅评估了LLMs在RAG中的性能,还为未来的研究方向和LLMs的改进提供了指导。
Q: 论文做了哪些实验?
A: 论文中进行了一系列的实验来评估大型语言模型(LLMs)在检索增强生成(RAG)中的四个基本能力:噪声鲁棒性、负面拒绝、信息集成和反事实鲁棒性。具体的实验包括:
这些实验提供了对LLMs在RAG中性能的全面评估,并揭示了它们在不同能力方面的不足,为未来的研究和模型改进提供了方向。
Q: 有什么可以进一步探索的点?
A: 根据论文内容,以下是一些可以进一步探索的点:
这些探索点可以帮助研究者们更好地理解和改进LLMs在RAG中的应用,同时也为未来的研究方向提供了可能的路径。
Q: 总结一下论文的主要内容
A: 这篇论文的主要内容可以总结如下: