大型语言模型的“灾难性遗忘”：指令向量揭示真相，引导训练化解危机

大型语言模型（LLM）在自然语言处理领域取得了巨大成功，但它们在微调过程中容易出现“灾难性遗忘”问题，即模型在学习新任务时会忘记之前学到的知识。这无疑限制了 LLM 的应用范围，也引发了人们对 LLM 可靠性和可解释性的担忧。本文将深入探讨 LLM 的遗忘机制，并提出一种基于指令向量（IV）的训练方法，有效缓解遗忘问题。

遗忘的真相：指令理解能力的下降，而非知识遗失

传统的遗忘研究主要关注模型在不同任务上的性能变化，但对于遗忘的内在机制却知之甚少。本文提出了一种新的视角，将 LLM 的能力分为两类：知识理解能力和指令理解能力。

知识理解能力是指模型对世界知识的掌握，例如“日本的首都是东京”。这种能力主要体现在模型对文本的理解和生成能力，例如问答、摘要等任务。
指令理解能力是指模型对特定指令的理解和执行能力，例如“从A. ��B、C、D中选择最佳答案”。这种能力体现在模型对用户意图的理解和执行能力，例如对话、代码生成等任务。✅

通过对持续指令微调框架下的实验观察，我们发现：指令理解能力的下降是导致模型遗忘的主要原因，而非知识遗失。

实验设计： 研究者使用持续指令微调框架，对 LLM 进行了一系列的指令学习任务。每个任务都对应一个特定的指令，例如“翻译成西班牙语”、“生成一段代码”。研究者观察了模型在学习新任务后，其在知识理解和指令理解方面的表现。

实验结果： 实验结果表明，模型在学习新任务后，其指令理解能力普遍下降，而知识理解能力则相对稳定，甚至有所提升。这说明模型的遗忘主要体现在对新指令的适应能力下降，而非对已学知识的遗忘。

指令向量：揭示遗忘背后的秘密，洞悉模型内部变化

为了深入理解遗忘机制，我们提出了指令向量（IV）框架。IV 代表与特定指令相关的模型表征，它可以帮助我们理解模型内部的变化，从而揭示遗忘的内在原因。

IV 假设： 研究者假设每个指令都对应一个潜在的指令向量 θc，它控制着模型对该指令的理解和执行能力。模型的输出 yc 可以通过一个包含 x、c 和 θc 的计算图来表示：fM(x, c, θc) → yc。

IV 提取： 研究者使用因果中介分析识别出对模型输出有显著因果影响的注意力头，并将其表征聚合起来，得到相应的 IV。具体而言，研究者首先收集了模型在处理特定指令时，每个注意力头的激活状态。然后，他们通过因果中介分析，识别出对模型输出有显著因果影响的注意力头。最后，他们将这些注意力头的表征聚合起来，得到相应的 IV。

IV 分析： 研究者通过分析 IV 在训练前后变化，发现了一些重要的现象：

IV 的一致性与任务性能相关： 模型在学习新任务时，其隐藏状态与 IV 的相似度越高，任务性能越好。这说明 IV 的激活状态与模型对特定指令的理解能力密切相关。
IV 的变化并非遗忘的主要原因： 即使 IV 保持稳定，模型仍然会发生遗忘。这说明模型的遗忘并非源于对 IV 的遗忘，而是源于其他因素。
遗忘源于新学习的推理模式对旧技能的抑制： 微调过程会引入新的推理模式，这些模式可能会压制旧的技能，导致遗忘。研究者通过因果中介分析发现，模型在学习新任务后，其注意力头的激活模式发生了显著变化，这说明模型学习了新的推理模式，而这些新的模式可能会压制旧的技能，导致遗忘。

指令向量引导训练：缓解遗忘的利器，维护模型原有能力

基于 IV 分析，研究者提出了一种指令向量引导训练方法，旨在通过维护 IV 相关的计算图来缓解遗忘问题。

方法：

渐进式 IV 干预训练： 在训练初期，将 IV 显式地引入模型，并随着训练的进行逐渐降低其影响。这可以帮助模型在学习新任务时，保持对旧指令的理解能力。
IV 基于 KL 散度损失函数： 通过最小化 IV 干预模型与原始模型的输出分布之间的 KL 散度，确保模型的行为与原始计算结构保持一致。这可以帮助模型在学习新任务时，避免过度偏离原有的计算模式。

实验结果：

指令向量引导训练显著减少了模型对一般能力和推理能力的遗忘。这表明指令向量引导训练可以有效地维护模型的原有能力，防止模型在学习新任务时忘记之前学到的知识。
指令向量引导训练没有损害模型学习新任务的能力。这表明指令向量引导训练可以帮助模型在学习新任务的同时，保持对旧任务的理解能力，不会影响模型的学习能力。
任务复杂度越高，遗忘的可能性越大。这表明指令向量引导训练在处理复杂任务时，其效果更加显著。

未来展望

我们的研究为理解 LLM 遗忘机制提供了新的视角，并提出了一种有效的缓解遗忘问题的方法。未来，我们将进一步研究：

IV 的可适应性和泛化性： 如何使 IV 能够更好地适应新的知识和任务。
IV 的提取方法： 如何利用更先进的优化方法提取更准确和泛化的 IV。
不同模型的遗忘现象： 在更多 LLM 上验证我们的遗忘假设。

总结

本文的研究揭示了 LLM 遗忘的内在机制，并提出了一种基于指令向量引导训练的方法，有效缓解遗忘问题。这项研究为理解 LLM 的行为提供了新的视角，也为 LLM 的应用提供了新的思路。