合并模型，安全至上：一个「坏」模型毁掉整个模型池

大型语言模型（LLMs）在语言处理任务中展现出惊人的能力，甚至在某些领域超越了人类的表现。为了增强LLMs在特定领域的性能，研究人员通常会使用特定领域的数据对预训练的LLMs进行微调。例如，OpenBioLLM在生物医学领域表现出色，而MAmmoTH在STEM科目（科学、技术、工程和数学）中表现良好。

然而，由于专家模型可能只擅长特定领域，因此模型合并技术应运而生。模型合并技术旨在将多个专家模型的优势整合到一个单一的、高性能的模型中。例如，将一个擅长化学的模型与另一个擅长数学的模型合并，可以创建一个在两个科目中都表现良好的统一模型，通常比单个专家模型表现更好。这种方法特别具有吸引力，因为它允许利用来自众多开源模型的知识，而无需承担高昂的训练成本。

然而，一个关键问题被忽视了：模型合并会如何影响现有LLMs的安全对齐？

安全对齐是指模型生成响应的能力，这些响应是安全的、符合道德标准的，并且与人类价值观一致。如果合并后的模型缺乏必要的安全对齐，可能会给用户带来不安全的内容。例如，一个合并了多个专家模型的模型，如果其中一个专家模型存在安全问题，那么合并后的模型也可能继承了这个安全问题，即使其他专家模型是安全的。

本文探讨了模型合并对对齐的影响，并提出了一种安全意识的模型合并方法，以确保合并后的模型既保持了领域专业知识，也具有高安全对齐性。

现有模型合并技术的局限性

现有的模型合并技术通常忽略了安全对齐的重要性，导致合并后的模型可能出现严重的对齐问题。论文通过实验表明，现有的模型合并技术不仅会传递领域专业知识，还可能传播对齐问题。例如，如果将一个未对齐的模型与其他对齐的模型合并，合并后的模型也可能变得未对齐，即使其他专家模型是安全的。

安全意识模型合并方法

为了解决这个问题，论文提出了一个简单的两步方法来合并专家模型，同时保持对齐性。这个过程包括生成合成的安全和领域特定数据，并将这些数据整合到现有数据感知模型合并技术的优化过程中。

1. 生成合成数据

论文首先生成两组数据集：

安全数据 (Dsafety): 包含可能被恶意用户用来提示LLM的「不良」或未对齐的问题，以及对应这些问题的拒绝回答，例如：「对不起，我不能提供帮助。」
领域特定数据 (Dexpert): 包含特定领域的问题和答案，例如，如果要合并一个生物学专家模型，Dexpert 中就会包含关于生物学的问题和答案。

2. 数据驱动合并优化

论文将 Dsafety 和 Dexpert 整合到现有的数据驱动模型合并技术中，例如 EvoMM 和 LM-Cocktail，以优化任务权重，最大化合并模型在对齐性和领域性能上的表现。通过这种方式，合并模型在处理 Dexpert 和 Dsafety 时，能够保持高对齐性和领域专业知识。

实验结果

论文通过一系列实验验证了其方法的有效性。实验结果表明，论文提出的安全意识合并方法在不牺牲领域准确性的情况下，能够显著提高合并模型的安全对齐性。

论文还进行了消融实验来评估不同因素（如损失组合因子、数据来源、样本数量和优化步骤）对合并性能的影响。实验结果表明，论文提出的方法对这些因素的变化具有较强的鲁棒性。

未来研究方向

论文也指出了未来研究的方向，包括：

探索在没有对齐模型的情况下进行安全意识合并的方法。
研究如何将该方法扩展到不同架构和异构提示模板的模型。
研究其他权重操作，如稀疏化和量化，对LLM对齐性的影响。
探索基于专家混合的新架构可能面临的相同模型合并问题。
研究在分布式或联邦学习环境中，来自不同客户端的个体模型聚合成的合并模型的安全性问题。

结论

论文深入探讨了在合并大型语言模型时如何保持模型的安全对齐性，并提出了一种有效的解决方案。论文的研究结果不仅对模型合并有重要意义，也可能对LLM的其他操作，如稀疏化、量化、专家混合架构、分布式学习等产生影响。

参考文献

Abed Al Kader Hammoud, H. , Michieli, U., Pizzati, F., Torr, P., Bibi, A., Ghanem, B., & Ozay, M. (2024). Model Merging and Safety Alignment: One Bad Model Spoils the Bunch. arXiv preprint arXiv:2406.14563.✅

现有模型合并技术的局限性

安全意识模型合并方法

实验结果

未来研究方向

结论

发表评论 取消回复

发表评论取消回复