语言模型的对抗性攻击：对 LLM 安全性的深入研究 🛡️

170次阅读

随着大型语言模型 (LLM) 在现实世界中的应用急剧增加，我们迫切需要关注其安全性问题。虽然在模型对齐过程中投入了大量精力来构建默认的安全行为，但对抗性攻击或越狱提示可能会导致模型输出一些不期望的内容。

对抗性攻击 是指输入模型后，导致模型输出一些不期望的内容。在图像领域，对抗性攻击已经获得了广泛的研究，但在离散数据（如文本）领域，由于缺乏直接的梯度信号，对抗性攻击被认为更具挑战性。

本文将重点介绍针对 LLM 的对抗性攻击，并探讨五种攻击方法：

1. 令牌操作 替换文本输入中一小部分的令牌，使其在不改变其原始语义含义的情况下触发模型失败。

2. 基于梯度的攻击 利用梯度信号来学习有效的攻击。

3. 越狱提示 经常使用基于启发法的提示来“越狱”模型内置的安全机制。

4. 人工红队测试 人类攻击模型，无论是否有其他模型的帮助。

5. 模型红队测试 模型攻击模型，其中攻击者模型可以进行微调。

接下来，我们将详细介绍每种攻击方法，并探讨其优缺点。

1. 令牌操作

令牌操作攻击在黑盒设置中进行。我们可以对文本输入进行简单的令牌操作，如用同义词替换，以触发模型做出错误的预测。

2. 基于梯度的攻击

基于梯度的攻击需要完全访问模型参数和体系结构，因此攻击者可以获得梯度信号。这种攻击方法仅适用于白盒设置，例如开源 LLM。

3. 越狱提示

越狱提示攻击通常使用基于启发法的提示来“越狱”模型内置的安全机制。这种攻击方法在黑盒设置中进行。

4. 人工红队测试

人工红队测试是指人类攻击模型，无论是否有其他模型的帮助。这种攻击方法在黑盒设置中进行。

5. 模型红队测试

模型红队测试是指模型攻击模型，其中攻击者模型可以进行微调。这种攻击方法在黑盒设置中进行。

对抗性攻击是 LLM 安全的一个重要挑战，需要我们持续的研究和探索。通过了解和掌握这些攻击方法，我们可以更好地保护 LLM 的安全，并确保其在现实世界中的可靠应用。

正文完

发表至： AGI

2023-12-15

链式回顾：利用反馈将语言模型与人类偏好相一致