Chen, Yihan, et al. “Benchmarking Large Language Models on Controllable Generation under Diversified Instructions.” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 1, 2024, pp. 17808-17816.
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决的问题是:大型语言模型(LLMs)在遵循自然语言指令方面表现出色,但目前尚不清楚它们是否能够以及在多大程度上能够响应指令中可能隐含的明确约束。为了更好地评估LLMs对具有特定约束的指令的响应,论文提出了一个新的基准测试(Benchmark),名为CoDI-Eval(Controllable Generation under Diversified Instructions),用于系统和全面地评估LLMs对具有各种约束的指令的响应。
近年来,大型语言模型(LLM)在理解和执行自然语言指令方面展现出惊人的能力,为自然语言处理领域带来了革命性的变革。然而,LLM 并不总是能准确地响应包含特定约束的指令。例如,要求 LLM 生成特定长度的文章摘要或带有特定情感的电子邮件,它们可能无法满足这些要求。因此,评估 LLM 对包含特定约束指令的响应能力至关重要。
可控文本生成:传统方法的局限性
可控文本生成(CTG)是指在生成文本时满足特定约束条件的过程。传统 CTG 研究主要集中在离散变量的控制条件上,例如控制文本长度或包含特定关键词。然而,这种方法并不适用于新的指令遵循范式,因为后者需要使用自然语言指令来表达约束条件。这种差异使得传统 CTG 的评估方法无法直接应用于 LLM 或相关应用。
此外,在现实场景中,指令中的约束条件通常以自由形式的自然语言表达,例如“写一篇关于人工智能的简短文章”。因此,LLM 需要能够理解各种表达方式的约束条件,并生成符合要求的文本。简单地将传统 CTG 任务中的有限约束条件转换为固定模板的自然语言指令并不能满足这一需求。缺乏指令的多样性会阻碍评估 LLM 在泛化场景下的可控文本生成能力,以及与实际用户期望的匹配程度。
CoDI-Eval:一个新的基准测试
为了填补这一空白,并推动 LLM 与人类期望更好地对齐的研究,我们提出了 CoDI-Eval(Controllable Generation under Diversified Instructions),一个新的基准测试,用于系统地评估 LLM 的可控生成能力。CoDI-Eval 涵盖了各种 CTG 任务,并使用多样化的自然语言指令来表达约束条件,从而更准确地衡量 LLM 对包含特定约束指令的响应能力。
CoDI-Eval 在覆盖范围和泛化能力方面都具有优势。在覆盖范围方面,我们选择了五个典型的 CTG 任务,涵盖了情感、主题、长度、关键词和避免毒性等方面。此外,我们还包含了一个多方面控制的任务,同时包含两个方面的约束条件,以测试 LLM 在更具挑战性的复杂场景下的表现。
在泛化能力方面,我们通过两步流程最大限度地提高了指令的多样性。第一步是“扩展”,使用一个强大的 LLM 生成更多指令,从而构建指令池。第二步是“多样化”,通过对指令进行文本重写,以不同的方式表达相同的约束条件。我们使用 Bootstrap 方法重复第二步,直到达到预期的指令规模。这两个步骤都由 LLM 自动完成,无需人工干预。
CoDI-Eval 的评估方法
为了评估 CoDI-Eval,我们为每个 CTG 任务收集或构建了自动化、易于使用且可靠的评估方法。对于无法直接评估的任务,我们借助现有的开源专用模型或外部 API,并证明这些替代方法与人工评估结果一致。每个 CTG 任务的评估指标是准确率,我们使用所有 CTG 任务的平均准确率来衡量不同 LLM 的可控生成能力。
实验结果
我们对主流 LLM(例如 ChatGPT、LLaMA2-chat、Vicuna)进行了广泛的评估,结果表明,顶级商业 LLM 在所有 CTG 任务上都取得了最高得分,而我们测试的开源 LLM 在准确率上存在超过 10% 的差距。此外,经过微调的 LLM 表现优于基础语言模型,而那些在更大规模数据上进行微调的模型(例如 LLaMA2-chat、ChatGLM)也比仅经过指令微调的同参数量 LLM(例如 Vicuna、Alpaca)表现更好。
在不同任务上的表现方面,LLM 在情感和主题控制任务上表现相对较好。然而,当这两个属性组合在一起时,任务难度会增加,所有 LLM 的准确率都未达到 80%。我们以 GPT-3.5-turbo 为例,分析了 LLM 在多方面可控生成任务上出现错误的原因。
在避免毒性任务中,只有经过对齐微调的 LLM(例如 RLHF)才能在这项任务上表现良好,特别是经过更精细对齐训练的 GPT-4 和 GPT-3.5-turbo。
在硬约束方面,LLM 在关键词任务上的准确率接近平均准确率。我们分析了 LLM 在复杂关键词 CTG 任务上出现错误的原因。然而,在看似简单的长度 CTG 任务中,即使是 GPT-3.5-turbo 的准确率也只有 55%,这表明大多数 LLM 对长度的感知能力不足。然而,GPT-4 在这项任务上表现出更强的能力。我们计算了 GPT-3.5-turbo 在长度控制生成每个子任务上的准确率,发现准确率与目标长度范围大致呈正相关。
结论
本文介绍了 CoDI-Eval,一个用于评估 LLM 可控文本生成能力的新基准测试。我们的基准测试包含一组评估指令,涉及多个 CTG 任务,并使用各种自然语言表达方式来表达约束条件。我们的结果表明,经过指令微调的 LLM 能够执行某些 CTG 任务,但生成文本的准确率还有待提高,特别是对于某些特定的约束条件。我们还观察到开源 LLM 与闭源商业 LLM 之间的性能差距,这为未来的研究指明了方向。
参考文献
Q: 这篇论文试图解决什么问题?
A: 这篇论文试图解决的问题是:大型语言模型(LLMs)在遵循自然语言指令方面表现出色,但目前尚不清楚它们是否能够以及在多大程度上能够响应指令中可能隐含的明确约束。为了更好地评估LLMs对具有特定约束的指令的响应,论文提出了一个新的基准测试(Benchmark),名为CoDI-Eval(Controllable Generation under Diversified Instructions),用于系统和全面地评估LLMs对具有各种约束的指令的响应。
具体来说,论文的主要贡献包括:
论文通过构建一个大型的、具有约束属性的指令集合作为测试套件,专注于泛化和覆盖范围,并通过指令多样化过程来合成不同形式的约束表达,同时仔细考虑了候选任务分类,以更细粒度的子类别进行划分。最后,论文自动化了整个评估过程,以促进未来的研究发展。
Q: 有哪些相关研究?
A: 论文中提到的相关研究主要包括以下几个方面:
这些相关研究为论文提出的CoDI-Eval基准测试提供了理论和技术背景,并且展示了LLMs在可控文本生成方面的潜力和挑战。论文通过这些研究的对比,强调了其在指令多样化和评估自动化方面的创新点。
Q: 论文如何解决这个问题?
A: 论文通过以下几个步骤解决大型语言模型(LLMs)在遵循带有特定约束的指令方面评估的问题:
通过这些步骤,论文不仅提出了一个新的基准测试来评估LLMs的可控文本生成能力,而且还通过实验验证了该基准测试的有效性,并为未来的研究提供了一个有用的工具。
Q: 论文做了哪些实验?
A: 论文中进行了以下实验来验证CoDI-Eval基准测试的有效性和评估不同大型语言模型(LLMs)的性能:
这些实验不仅展示了CoDI-Eval基准测试的评估能力,而且还揭示了当前LLMs在可控文本生成方面的局限性,特别是在处理特定约束时。实验结果为未来的研究方向提供了有价值的见解。
Q: 有什么可以进一步探索的点?
A: 根据论文内容,以下是一些可以进一步探索的点:
这些探索点可以帮助研究者们更好地理解和改进LLMs在可控文本生成方面的表现,同时也为LLMs的实际应用提供指导。
Q: 总结一下论文的主要内容
A: 这篇论文的主要内容可以总结如下:
整体而言,这篇论文通过提出新的基准测试和评估方法,为理解和改进LLMs在可控文本生成方面的能力提供了重要的工具和见解。