监狱大逃亡：开源大语言模型的灾难性监禁漏洞

在人工智能（AI）快速发展的浪潮中，开源大型语言模型（LLMs）正如雨后春笋般崛起。随着 ChatGPT 和 Bard 等模型的问世，越来越多的研究者希望借助这些工具推动科学与技术的进步。然而，正如普林斯顿大学的研究团队在其最新论文中所揭示的那样，这些开源模型在安全性与伦理方面的脆弱性令人担忧。

模型的快速崛起与潜在风险

研究表明，尽管在模型发布前进行了大量的行为调整，以确保其对人类价值观的尊重，但这些模型依然容易受到恶意操控，导致意想不到的行为，通常称为「监禁漏洞」（jailbreaks）。这些漏洞通常是通过特定的文本输入触发的，被称为对抗性提示（adversarial prompts）。研究团队提出了一种新颖的生成利用攻击（generation exploitation attack），这是一种极为简单的方法，通过操控解码方法的变体来破坏模型的对齐性。

例如，当研究人员在 LLAMA2 模型中改变了采样的温度参数（temperature parameter），从 $p=0.9$ 降至 $p=0.75$，便成功绕过了模型的安全约束。这种简单的诱导手段揭示了当前安全评估和对齐程序的重大缺陷。

生成利用攻击：简单却致命

研究团队通过系统评估，发现利用不同的生成配置可以显著提高攻击成功率。他们在 11 个开源 LLM 上进行了实验，结果表明，攻击成功率可提高到超过 95%。这比当前最先进的攻击方法快了约 30 倍，且无需复杂的计算资源。更重要的是，研究者们强调，当前的对齐程序往往是基于默认的解码设置，而这些设置可能在稍微变化时显示出脆弱性。

例如，在对 LLAMA2-7B-CHAT 模型的攻击实验中，研究人员观察到，去除系统提示（system prompt）可以使攻击成功率从 0% 提高到 81%。这表明，系统提示在保持模型输出的对齐性方面起着至关重要的作用。

改进对齐方法的必要性

考虑到这些模型的脆弱性，研究团队提出了一种新的对齐策略，称为「生成感知对齐」（generation-aware alignment）。该策略通过主动收集在不同解码配置下生成的模型输出，以增强模型抵御生成利用攻击的能力。实验表明，这种新方法能够将攻击成功率从 95% 降低至 69%。

在与专有模型（如 ChatGPT）的比较中，研究发现开源模型的攻击成功率远高于专有模型，后者的攻击成功率仅为 7%。这突显出开源模型在安全性上的不足，尽管它们在可访问性和可扩展性方面具有优势。

未来展望

基于上述研究结果，研究团队呼吁更多的全面红队测试（red teaming）和更好的对齐方法，以确保在发布开源 LLM 之前，充分评估模型的安全性和潜在风险。未来，他们计划进一步探索生成利用攻击的转移性，以及在多模态模型中的应用。

在 AI 技术迅速发展的今天，确保模型的安全性与伦理性显得尤为重要。只有通过不断的研究和改进，我们才能在享受 AI 带来便利的同时，有效规避潜在风险。

参考文献

Huang, Y. , Gupta, S., Xia, M., Li, K., Chen, D. (2024). Catastrophic Jailbreak of Open-Source LLMs via Exploiting Generation. ICLR 2024.✅
Ouyang, L. , et al. (2022). Training language models to follow instructions with human feedback.✅
Zou, J. , et al. (2023). Adversarial prompts for large language models.✅
Bai, Y. , et al. (2022). Aligning language models to follow instructions.✅
Touvron, H. , et al. (2023). LLaMA: Open and efficient foundation language models.✅

模型的快速崛起与潜在风险

生成利用攻击：简单却致命

改进对齐方法的必要性

未来展望

参考文献

发表评论 取消回复

发表评论取消回复