理解越狱成功：大型语言模型中潜在空间动态的研究

在大规模生成式AI模型（Large Language Models, LLMs）越来越普及的今天，确保这些模型输出的安全性成为了一个重要问题。尽管模型提供者采用了强化学习（Reinforcement Learning from Human Feedback, RLHF）和安全过滤等方法来防止模型生成有害内容，但仍有一些方法可以绕过这些安全措施，导致模型输出不当内容。这些方法被称为「越狱」（jailbreaks）。本文旨在深入理解不同类型的越狱方法是如何工作的，并探讨可能的对策。

研究方法

数据与模型

本研究聚焦于Vicuna 13B v1.5模型，并使用了一组包含24种越狱类型和352个有害提示的数据集。

测量越狱成功

越狱成功率（Attack Success Rate, ASR）是通过Llama Guard 2 8B和Llama 3 8B模型的判断以及人工检查来计算的。

激活模式分析

研究使用主成分分析（PCA）来分析模型不同层次中不同越狱类型的激活模式，以识别相似行为的簇。

越狱向量的相似性与可转移性

通过计算越狱提示和非越狱提示之间激活的平均差异，提取每种越狱类型的越狱向量。使用余弦相似度来评估这些向量之间的相似性，并测试这些向量在其他越狱类型中的转移性，即使用它们来引导模型远离生成有害输出。

有害性抑制分析

研究探讨越狱是否通过减少模型对提示有害性的感知来成功。通过分析模型在越狱提示上的激活与预定义的「有害性向量」之间的余弦相似度来实现这一点。

关键发现

激活聚类

越狱激活根据其语义攻击类型聚类，表明存在共享的内部机制。

越狱向量的相似性

不同类别的越狱向量显示出显著的余弦相似性，表明这些向量可以在不同的越狱类型之间进行交叉缓解。

越狱向量的可转移性

使用一种越狱类型的越狱向量可以降低其他越狱类型的成功率，即使这些越狱类型在语义上不相似。

有害性抑制

成功的越狱，特别是涉及样式操纵和人格采用的越狱，有效地减少了模型对提示有害性的感知。

启示

开发稳健的对策

研究结果表明，通过针对成功攻击的共享机制，可以开发出可推广的越狱对策。

对越狱动态的机制理解

本研究提供了关于越狱如何利用LLMs内部工作原理的宝贵见解，为更有效的对齐策略铺平了道路。

限制

本研究仅聚焦于单一LLM（Vicuna 13B v1.5），限制了发现的普遍性。
研究主要考察了一组特定的越狱类型，可能忽略了其他成功的攻击向量。

结论

本文揭示了LLMs中越狱成功的潜在空间动态。研究结果强调了通过利用不同越狱类型的共享机制来开发稳健对策的潜力。需要进一步研究以探索这些发现对各种LLM架构和攻击策略的普遍性。

参考文献

Achiam, J. , et al. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774.✅
Bai, Y. , et al. (2022a). Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862.✅
Chao, P. , et al. (2023). Jailbreaking black box large language models in twenty queries. arXiv preprint arXiv:2310.08419.✅
Lee, A. , et al. (2024). A mechanistic understanding of alignment algorithms: A case study on DPO and toxicity. arXiv preprint arXiv:2401.01967.✅
Wei, A. , et al. (2024). Jailbroken: How does LLM safety training fail? Advances in Neural Information Processing Systems, 36.✅