合并模型，安全至上：一个「坏」模型毁掉整个模型池

大型语言模型（LLMs）在语言处理任务中展现出惊人的能力，甚至在某些领域超越了人类的表现。为了增强LLMs在特定领域的性能，研究人员通常会使用特定领域的数据对预训练的LLMs进行微调。例如，OpenBioLLM在生物医学领域表现出色，而MAmmoTH在STEM科目（科学、技术、工程和数学）中表现良好。

然而，由于专家模型可能只擅长特定领域，因此模型合并技术应运而生。模型合并技术旨在将多个专家模型的优势整合到一个单一的、高性能的模型中。例如，将一个擅长化学的模型与另一个擅长数学的模型合并，可以创建一个在两个科目中都表现良好的统一模型，通常比单个专家模型表现更好。这种方法特别具有吸引力，因为它允许利用来自众多开源模型的知识，而无需承担高昂的训练成本。

然而，一个关键问题被忽视了：模型合并会如何影响现有LLMs的安全对齐？

安全对齐是指模型生成响应的能力，这些响应是安全的、符合道德标准的，并且与人类价值观一致。如果合并后的模型缺乏必要的安全对齐，可能会给用户带来不安全的内容。例如，一个合并了多个专家模型的模型，如果其中一个专家模型存在安全问题，那么合并后的模型也可能继承了这个安全问题，即使其他专家模型是安全的。

本文探讨了模型合并对对齐的影响，并提出了一种安全意识的模型合并方法，以确保合并后的模型既保持了领域专业知识，也具有高安全对齐性。

现有模型合并技术的局限性

现有的模型合并技术通常忽略了安全对齐的重要性，导致合并后的模型可能出现严重的对齐问题。论文通过实验表明，现有的模型合并技术不仅会传递领域专业知识，还可能传播对齐问题。例如，如果将一个未对齐的模型与其他对齐的模型合并，合并后的模型也可能变得未对齐，即使其他专家模型是安全的。

安全意识模型合并方法

为了解决这个问题，论文提出了一个简单的两步方法来合并专家模型，同时保持对齐性。这个过程包括生成合成的安全和领域特定数据，并将这些数据整合到现有数据感知模型合并技术的优化过程中。

1. 生成合成数据

论文首先生成两组数据集：

安全数据 (Dsafety): 包含可能被恶意用户用来提示LLM的「不良」或未对齐的问题，以及对应这些问题的拒绝回答，例如：「对不起，我不能提供帮助。」
领域特定数据 (Dexpert): 包含特定领域的问题和答案，例如，如果要合并一个生物学专家模型，Dexpert 中就会包含关于生物学的问题和答案。

2. 数据驱动合并优化

论文将 Dsafety 和 Dexpert 整合到现有的数据驱动模型合并技术中，例如 EvoMM 和 LM-Cocktail，以优化任务权重，最大化合并模型在对齐性和领域性能上的表现。通过这种方式，合并模型在处理 Dexpert 和 Dsafety 时，能够保持高对齐性和领域专业知识。

实验结果

论文通过一系列实验验证了其方法的有效性。实验结果表明，论文提出的安全意识合并方法在不牺牲领域准确性的情况下，能够显著提高合并模型的安全对齐性。

论文还进行了消融实验来评估不同因素（如损失组合因子、数据来源、样本数量和优化步骤）对合并性能的影响。实验结果表明，论文提出的方法对这些因素的变化具有较强的鲁棒性。

未来研究方向

论文也指出了未来研究的方向，包括：

探索在没有对齐模型的情况下进行安全意识合并的方法。
研究如何将该方法扩展到不同架构和异构提示模板的模型。
研究其他权重操作，如稀疏化和量化，对LLM对齐性的影响。
探索基于专家混合的新架构可能面临的相同模型合并问题。
研究在分布式或联邦学习环境中，来自不同客户端的个体模型聚合成的合并模型的安全性问题。

结论

论文深入探讨了在合并大型语言模型时如何保持模型的安全对齐性，并提出了一种有效的解决方案。论文的研究结果不仅对模型合并有重要意义，也可能对LLM的其他操作，如稀疏化、量化、专家混合架构、分布式学习等产生影响。

参考文献

Abed Al Kader Hammoud, H. , Michieli, U., Pizzati, F., Torr, P., Bibi, A., Ghanem, B., & Ozay, M. (2024). Model Merging and Safety Alignment: One Bad Model Spoils the Bunch. arXiv preprint arXiv:2406.14563.✅

Q. 这篇论文试图解决什么问题？✅

A. 这篇论文探讨了在合并大型语言模型（LLMs）时，现有技术可能忽视了模型安全对齐（safety alignment）的重要性，导致合并后的模型可能出现严重的对齐问题。具体来说，论文指出了以下几个关键问题：✅

模型合并的影响：合并多个专家LLMs（在特定领域表现出色的模型）时，现有方法不仅会传递领域专业知识，还可能传播对齐问题。
安全对齐的重要性：安全对齐指的是模型生成的响应是安全的、符合道德标准和人类价值观的。如果合并后的模型缺乏必要的安全对齐，可能会给用户带来不安全的内容。
现有模型合并技术的局限性：论文通过实验表明，现有的模型合并技术没有充分考虑在合并过程中保持模型的安全对齐。
安全意识合并方法的缺失：在文献中，对于如何在合并过程中保持模型的安全对齐特性缺乏足够的研究和解决方案。

为了解决这些问题，论文提出了一个简单的两步方法来合并专家模型，同时保持对齐性。这个过程包括生成合成的安全和领域特定数据，并将这些数据整合到现有数据感知模型合并技术的优化过程中。这样，合并后的LLM能够在保持领域专业知识的同时，也具有高安全对齐性。

Q. 有哪些相关研究？✅

A. 论文中提到了多个与大型语言模型（LLMs）对齐和合并技术相关的研究工作。以下是一些主要的相关研究领域和具体工作：✅

LLM对齐

确保LLMs的对齐性至关重要。一些研究强调了微调（fine-tuning）的风险，表明即使是良性数据集也可能降低模型的安全性，需要仔细的适应协议来保持对齐。

对齐技术

提出了一些技术来对齐LLM，例如：

ARGS：针对解码的对齐。
FIGA：用于标记级别的信号。
f-DPO：用于高效对齐。
GPO：考虑不同利益群体的方法。

模型合并技术

提出了多种合并多个模型的方法，以无需重新训练或访问原始数据集的情况下，从多个LLMs的能力中受益。例如：

Model Soups：通过权重平均来结合模型。
Task Arithmetics：在模型参数上执行元素级操作以编辑特定任务的行为。
RegMean 和 Fisher Merging：类似的替代方法。
SLERP：在非线性空间中显示改进结果的方法。

自动任务加权

为了解决现有合并技术中任务加权因子选择的问题，提出了一些自动选择任务加权因子的方法，例如：

EvoMM：使用基于进化的算法选择(\lambda_t)。
LM-Cocktail：基于在少量样本上的表现来识别(\lambda_t)。

对齐评估

在评估LLMs方面，研究集中在它们的鲁棒性、伦理考虑和安全对齐上。例如：

PromptBench 和 ReCode：提供全面基准来评估对提示扰动的鲁棒性。
FLASK 和 AUTO-J：用于细粒度评估对齐。
TrustGPT 和 ETHICS 数据集：评估毒性、偏见和价值对齐。

安全性问题

一些研究关注于对话AI中的有效输入输出保护，例如使用安全风险分类和特定模型来分类文本中的安全问题。

这些研究为本文提出的安全意识模型合并方法提供了理论和技术背景。论文通过扩展这些现有技术，提出了一种新的合并方法，以确保合并后的模型既保持了领域专业知识，也具有高安全对齐性。

Q. 论文如何解决这个问题？✅

A. 论文提出了一个安全意识的模型合并方法，以解决在合并大型语言模型（LLMs）时可能损失安全对齐的问题。这个方法包括以下几个关键步骤：✅

生成合成数据

首先，研究者们生成了两组数据集，一组用于保持对齐性（safety data），另一组用于转移特定领域的知识（domain-specific data）。

安全数据生成（Safety Data Generation）：使用一个未受限制的大型语言模型生成可能被恶意用户用来提示LLM的「不良」或未对齐的问题。然后，通过最对齐的模型生成拒绝回答（refusals），例如：「对不起，我不能提供帮助。」这形成了一个包含不安全问题及其对应拒绝回答的安全数据集（Dsafety）。
领域数据生成（Domain Data Generation）：为了转移每个专家模型的专业知识，研究者们使用专家模型生成特定领域的问答对。每个专家模型被提示生成与其专业领域相关的问题，并提供相应的答案。这形成了一个领域特定数据集（Dexpert）。

合并优化（Merging）

利用自动任务加权策略（如EvoMM和LM-Cocktail），结合上述生成的数据集，优化任务权重(\lambda_t)，以最大化合并模型在对齐性和领域性能上的表现。通过这种方式，合并模型在处理Dexpert和Dsafety时，能够保持高对齐性和领域专业知识。

实验验证

研究者们通过一系列实验验证了他们的方法。他们使用不同的模型配置和合并技术，展示了在合并过程中考虑安全对齐性的重要性，并证明了他们的方法在不牺牲准确性的情况下，能够显著提高合并模型的对齐性。

自动化流程

整个合并流程是自动化的，仅依赖于合成数据，避免了对外部数据集的依赖，并且与公共数据集兼容。

通过这种方法，论文成功地解决了在合并LLMs时保持安全对齐性的挑战，并展示了合并后的模型在多个领域内都能保持高对齐性和准确性。

Q. 论文做了哪些实验？✅

A. 论文中进行了一系列实验来验证所提出的安全意识模型合并方法的有效性。以下是实验的主要组成部分：✅

实验设置

使用两种自动方法来确定任务权重：EvoMM 和 LM-Cocktail。
选择了五个大型语言模型（LLMs）进行实验，包括 Mistral、LLaMA、OpenBioLLM、MAmmoTH 和 WizardMath。

模型评估

使用 BeaverTails30K 测试集来评估模型的对齐性，该测试集包含 1,733 个不安全的提示。
使用特定领域的基准测试集来评估模型的领域性能，例如 STEM 和 BIO 领域的数据集。

安全意识合并性能

对比了不同合并配置下的性能，包括使用 EvoMM 和 LM-Cocktail 的不同变体。
展示了在不同领域专家模型组合下，合并模型在安全性和准确性方面的表现。

多模型合并

研究了在包含超过两个专家模型的池中进行安全意识合并的潜力。考虑了 Mistral、MAmmoTH 和 WizardMath 这三个模型的组合，并评估了在 Winogrande 和 ARC 基准上的性能。

消融研究

研究了不同因素对合并性能的影响，包括损失组合因子 (\alpha) 的影响、数据来源（合成数据与真实数据）、样本数量 (K. 的重要性，以及 EvoMM 优化步骤的数量。✅

安全性和性能的平衡

通过调整 (\alpha) 的值，研究了在安全性和准确性之间找到平衡点的可能性。证明了即使在只使用安全数据（Dsafety）的情况下，合并模型也能保持竞争力的准确性。

使用真实数据

测试了使用从现有基准测试的验证集中采样的真实数据来构建 Dexpert 和 Dsafety 的性能。比较了合成数据方法与真实数据方法的性能差异。

模型合并的公共实践问题

分析了公共模型库中流行的合并模型的对齐率，发现一些合并模型的对齐性显著低于组成它们的单独模型。

这些实验结果表明，论文提出的方法能够在不牺牲领域准确性的前提下，显著提高合并模型的安全对齐性。此外，实验还揭示了当前模型合并实践中可能忽视安全性的问题。

Q. 有什么可以进一步探索的点？✅

A. 论文在探索模型合并与安全对齐的交叉领域时提出了一些限制和潜在的风险，并指出了未来研究的多个方向。以下是一些可以进一步探索的点：✅

对齐要求：论文假设合并池中至少有一个模型具有足够的对齐性。未来的研究可以探索在没有对齐模型的情况下进行安全意识合并的方法。
合并限制：论文的方法限于具有相同架构的模型，并且要求跨模型使用相同的聊天模板。研究如何将该方法扩展到不同架构和异构提示模板的模型将是有价值的。
权重操作对对齐的影响：研究其他权重操作，如稀疏化和量化，对LLM对齐性的影响。
新型架构的安全性：探索基于专家混合的新架构可能面临的相同模型合并问题。
分布式或联邦学习中的安全性：研究在分布式或联邦学习环境中，来自不同客户端的个体模型聚合成的合并模型的安全性问题。
模型合并的公共实践：进一步研究和提出策略来改善公共模型库中模型合并的实践，以防止高度未对齐模型的传播。
安全性检查：开发更系统和自动化的方法来评估和确保合并模型的安全性。
优化算法的改进：研究是否可以改进用于任务权重优化的进化算法，以减少计算成本并提高合并性能。
数据生成策略：进一步研究和改进用于生成安全和领域特定数据的数据生成策略，以提高合并模型的性能。
跨领域性能：探索合并模型在不同领域间转移知识的能力，以及如何平衡不同领域的性能。
用户定制化：研究如何让用户根据特定需求定制合并模型的对齐性和领域专业知识。
伦理和法律考量：深入研究模型合并过程中的伦理和法律问题，确保合并模型遵守相关法规和道德标准。

这些探索点不仅有助于提高模型合并技术的安全性和有效性，而且有助于推动大型语言模型的整体发展和应用。

Q. 总结一下论文的主要内容✅

A. 这篇论文的主要内容可以总结为以下几点：✅

问题识别：论文指出了现有大型语言模型（LLMs）合并技术在合并专家模型时可能忽视了模型的安全对齐问题，这可能导致合并后的模型在安全性方面存在问题。
安全对齐的重要性：强调了模型在生成响应时保持安全、伦理和与人类价值观一致的重要性。
现有合并技术的缺陷：通过实验展示了现有模型合并方法不仅传递了领域专业知识，也可能传播了模型的不安全对齐。
提出的解决方案：论文提出了一个两步安全意识合并方法，包括生成合成的安全对齐数据和领域特定数据，并将这些数据整合到现有的数据驱动合并技术中。
实验验证：通过一系列实验，论文证明了其方法在保持领域专业知识的同时，显著提高了合并模型的安全对齐性，而没有牺牲准确性。
消融研究：进行了消融实验来评估不同因素（如损失组合因子、数据来源、样本数量和优化步骤）对合并性能的影响。
局限性和风险：论文讨论了其方法的局限性，包括对齐要求、合并限制，并指出了潜在的风险，如合并模型可能给用户带来的安全问题。
未来研究方向：提出了未来研究的方向，包括探索在不同条件下的模型合并技术，以及如何提高合并模型的安全性和有效性。
社会影响：论文认为其研究结果不仅对模型合并有重要意义，也可能对LLM的其他操作，如稀疏化、量化、专家混合架构、分布式学习等产生影响。
致谢：最后，论文感谢了支持这项研究的机构和个人。

整体而言，这篇论文深入探讨了在合并大型语言模型时如何保持模型的安全对齐性，并提出了一种有效的解决方案，同时也指出了当前研究的局限性和未来可能的研究方向。