PrExMe:大规模提示探索用于机器翻译和摘要评估的开源LLM 2024-06-27 作者 C3P00 引言 近年来,大型语言模型(LLMs)的迅速发展为自然语言处理(NLP)领域带来了范式转变。特别是,这些模型的上下文学习能力使其能够作为自然语言生成(NLG)任务的评估指标,从而在低资源场景和时间受限的应用中表现尤为出色。在本文中,我们介绍了PrExMe,一种大规模的提示探索方法,旨在评估超过720种开源LLM提示模板在机器翻译(MT)和摘要数据集上的表现,总共进行了超过6.6百万次评估。这项广泛的比较研究不仅作为最近开源LLM性能的基准,还探讨了不同提示策略的稳定性和变异性。我们发现,虽然在某些场景中提示是稳定的,但在其他场景中,提示和模型排名的稳定性可能会受到看似无害的变化的影响。例如,将请求的输出格式从“0到100”更改为“-1到+1”会显著影响我们的评估排名。我们的研究有助于理解不同提示方法对LLM评估指标性能的影响,突出了最稳定的提示模式及其潜在的局限性。我们公开了代码,供进一步研究使用:https://github.com/Gringham/PrExMe 相关工作 基于提示的评估指标 基于LLM的NLG评估指标的最新进展通常依赖于上下文学习,直接从生成的文本中预测质量判断。Li等人(2024b)和Gao等人(2024a)的调查提供了这些指标的全面概述。然而,许多现有的方法都依赖于封闭源模型。在Eval4NLP 2023共享任务中,研究人员限制了使用选定的开源LLM,并禁止对这些模型进行微调。这些提交中提出了许多有趣的技术,但它们仅探讨了少数几种提示,缺乏对提示模式的全面分析。 提示技术 近年来,许多成功的提示技术被提出(例如,Liu等人,2023a)。我们的工作主要依赖于已建立的方法,如零样本链式推理(Zero-Shot CoT)和检索增强生成(RAG)。此外,Li等人(2023)提出了情感诱导提示,以提高LLM性能。我们首次分析了这种技术在评估指标中的应用。 提示稳定性 我们的工作在广泛的提示、数据集和任务的网格搜索基础上,扩展了LLM对提示扰动的响应研究。Webson和Pavlick(2022)、Leidinger等人(2023)、Weber等人(2023)和Sclar等人(2023)发现自然语言推理和情感分类的性能变化范围很大。为了解决这个问题,Sclar等人(2023)建议提供不同提示扰动下的完整结果范围。我们是首个研究这些稳定性问题对开源LLM评估指标影响的团队,并探索如何选择最佳提示。 实验设置 提示模板 我们的提示是基于层级模板构建的,即一个大模板由多个小模板组成。每个提示由以下部分组成:(1)源文本和要评分的生成假设文本,(2)基础提示,(3)任务描述,(4)格式要求,以及(5)可选的一次性示例。基础提示是我们提示层级的顶层,包含其他组件。 MQM基础方法 除了层级模板,我们还测试了GEMBA-MQM的提示。GEMBA-MQM通常使用GPT-4进行评分,我们称其开源实现为LocalGemba。 分数提取与评估 我们将生成限制为180个标记,并提取作为分数的最后一个正则匹配。当没有找到结果时,我们将其他提示模板的平均分赋给该样本。我们在段落级别评估提示模板,即对于每个指标,我们计算指标分数与人工判断之间的相关性。我们使用肯德尔、皮尔逊和斯皮尔曼相关性作为主要度量,并计算肯德尔相关性结果的显著性测试(p≤0.075)。 模型 我们选择了在Eval4NLP 2023中表现出色的指令调优LLM进行评估,包括Platypus2-70B-GPTQ、Nous-Hermes-13b和OpenOrca-Platypus2-13B等。 数据集和阶段 我们的实验分为两个阶段,使用不同的数据集进行评估。第一阶段在Eval4NLP 2023的训练集上进行评估,第二阶段在开发集和测试集上进行评估。通过这种方式,我们可以评估提示在不同数据集和任务中的泛化性能。 基线 我们还提供了两个基线指标的相关性,包括BARTScore和XComet。 结果 在第一阶段,我们运行了超过665万次零样本提示和71,280次一次性提示。在第二阶段,我们评估了550多万次零样本提示和130多万次一次性提示。表2展示了每个LLM在不同任务和数据集上的肯德尔相关性。 提示模式和模型的最佳表现 我们发现不同模型对提示模式有独特的偏好。例如,Platypus-70B在9个任务中表现最佳,而Tower-13B在3个任务中表现出色。不同模型对提示模式的偏好也不同,例如Orca更喜欢PZS提示,而Tower更适合ZS-CoT和ZS-CoT-EM提示。 提示稳定性 我们量化了提示模式在数据集、模型和其他提示组件变化时的稳定性。结果表明,某些提示模式在不同数据集间具有较高的稳定性,而其他提示模式则表现出显著的变异性。 建议 通过我们的研究,我们为使用开源提示基准指标提供了一些建议。Platypus2-70B在评估任务中表现最佳,对于13B模型,Tower和Orca在MT和摘要任务中表现出色。我们建议使用这些模型中最常见的提示模式作为初始选择,并根据实际需求进行调整。 结论 我们引入了PrExMe,一种大规模提示探索方法,用于提示基准的开源NLG指标。我们评估了720种不同的提示模板和超过6.6百万个提示,并提供了使未来这种类型的指标更加稳健的建议。此外,我们的研究成果为最近的开源LLM在此任务中的应用提供了比较和分析。 以上是对PrExMe研究的详细介绍和分析,希望能为未来的研究提供有价值的参考。
引言
近年来,大型语言模型(LLMs)的迅速发展为自然语言处理(NLP)领域带来了范式转变。特别是,这些模型的上下文学习能力使其能够作为自然语言生成(NLG)任务的评估指标,从而在低资源场景和时间受限的应用中表现尤为出色。在本文中,我们介绍了PrExMe,一种大规模的提示探索方法,旨在评估超过720种开源LLM提示模板在机器翻译(MT)和摘要数据集上的表现,总共进行了超过6.6百万次评估。这项广泛的比较研究不仅作为最近开源LLM性能的基准,还探讨了不同提示策略的稳定性和变异性。我们发现,虽然在某些场景中提示是稳定的,但在其他场景中,提示和模型排名的稳定性可能会受到看似无害的变化的影响。例如,将请求的输出格式从“0到100”更改为“-1到+1”会显著影响我们的评估排名。我们的研究有助于理解不同提示方法对LLM评估指标性能的影响,突出了最稳定的提示模式及其潜在的局限性。我们公开了代码,供进一步研究使用:https://github.com/Gringham/PrExMe
相关工作
基于提示的评估指标
基于LLM的NLG评估指标的最新进展通常依赖于上下文学习,直接从生成的文本中预测质量判断。Li等人(2024b)和Gao等人(2024a)的调查提供了这些指标的全面概述。然而,许多现有的方法都依赖于封闭源模型。在Eval4NLP 2023共享任务中,研究人员限制了使用选定的开源LLM,并禁止对这些模型进行微调。这些提交中提出了许多有趣的技术,但它们仅探讨了少数几种提示,缺乏对提示模式的全面分析。
提示技术
近年来,许多成功的提示技术被提出(例如,Liu等人,2023a)。我们的工作主要依赖于已建立的方法,如零样本链式推理(Zero-Shot CoT)和检索增强生成(RAG)。此外,Li等人(2023)提出了情感诱导提示,以提高LLM性能。我们首次分析了这种技术在评估指标中的应用。
提示稳定性
我们的工作在广泛的提示、数据集和任务的网格搜索基础上,扩展了LLM对提示扰动的响应研究。Webson和Pavlick(2022)、Leidinger等人(2023)、Weber等人(2023)和Sclar等人(2023)发现自然语言推理和情感分类的性能变化范围很大。为了解决这个问题,Sclar等人(2023)建议提供不同提示扰动下的完整结果范围。我们是首个研究这些稳定性问题对开源LLM评估指标影响的团队,并探索如何选择最佳提示。
实验设置
提示模板
我们的提示是基于层级模板构建的,即一个大模板由多个小模板组成。每个提示由以下部分组成:(1)源文本和要评分的生成假设文本,(2)基础提示,(3)任务描述,(4)格式要求,以及(5)可选的一次性示例。基础提示是我们提示层级的顶层,包含其他组件。
MQM基础方法
除了层级模板,我们还测试了GEMBA-MQM的提示。GEMBA-MQM通常使用GPT-4进行评分,我们称其开源实现为LocalGemba。
分数提取与评估
我们将生成限制为180个标记,并提取作为分数的最后一个正则匹配。当没有找到结果时,我们将其他提示模板的平均分赋给该样本。我们在段落级别评估提示模板,即对于每个指标,我们计算指标分数与人工判断之间的相关性。我们使用肯德尔、皮尔逊和斯皮尔曼相关性作为主要度量,并计算肯德尔相关性结果的显著性测试(p≤0.075)。
模型
我们选择了在Eval4NLP 2023中表现出色的指令调优LLM进行评估,包括Platypus2-70B-GPTQ、Nous-Hermes-13b和OpenOrca-Platypus2-13B等。
数据集和阶段
我们的实验分为两个阶段,使用不同的数据集进行评估。第一阶段在Eval4NLP 2023的训练集上进行评估,第二阶段在开发集和测试集上进行评估。通过这种方式,我们可以评估提示在不同数据集和任务中的泛化性能。
基线
我们还提供了两个基线指标的相关性,包括BARTScore和XComet。
结果
在第一阶段,我们运行了超过665万次零样本提示和71,280次一次性提示。在第二阶段,我们评估了550多万次零样本提示和130多万次一次性提示。表2展示了每个LLM在不同任务和数据集上的肯德尔相关性。
提示模式和模型的最佳表现
我们发现不同模型对提示模式有独特的偏好。例如,Platypus-70B在9个任务中表现最佳,而Tower-13B在3个任务中表现出色。不同模型对提示模式的偏好也不同,例如Orca更喜欢PZS提示,而Tower更适合ZS-CoT和ZS-CoT-EM提示。
提示稳定性
我们量化了提示模式在数据集、模型和其他提示组件变化时的稳定性。结果表明,某些提示模式在不同数据集间具有较高的稳定性,而其他提示模式则表现出显著的变异性。
建议
通过我们的研究,我们为使用开源提示基准指标提供了一些建议。Platypus2-70B在评估任务中表现最佳,对于13B模型,Tower和Orca在MT和摘要任务中表现出色。我们建议使用这些模型中最常见的提示模式作为初始选择,并根据实际需求进行调整。
结论
我们引入了PrExMe,一种大规模提示探索方法,用于提示基准的开源NLG指标。我们评估了720种不同的提示模板和超过6.6百万个提示,并提供了使未来这种类型的指标更加稳健的建议。此外,我们的研究成果为最近的开源LLM在此任务中的应用提供了比较和分析。
以上是对PrExMe研究的详细介绍和分析,希望能为未来的研究提供有价值的参考。