监狱大逃亡:开源大语言模型的灾难性监禁漏洞

在人工智能(AI)快速发展的浪潮中,开源大型语言模型(LLMs)正如雨后春笋般崛起。随着 ChatGPT 和 Bard 等模型的问世,越来越多的研究者希望借助这些工具推动科学与技术的进步。然而,正如普林斯顿大学的研究团队在其最新论文中所揭示的那样,这些开源模型在安全性与伦理方面的脆弱性令人担忧。

模型的快速崛起与潜在风险

研究表明,尽管在模型发布前进行了大量的行为调整,以确保其对人类价值观的尊重,但这些模型依然容易受到恶意操控,导致意想不到的行为,通常称为“监禁漏洞”(jailbreaks)。这些漏洞通常是通过特定的文本输入触发的,被称为对抗性提示(adversarial prompts)。研究团队提出了一种新颖的生成利用攻击(generation exploitation attack),这是一种极为简单的方法,通过操控解码方法的变体来破坏模型的对齐性。

例如,当研究人员在 LLAMA2 模型中改变了采样的温度参数(temperature parameter),从 $p=0.9$ 降至 $p=0.75$,便成功绕过了模型的安全约束。这种简单的诱导手段揭示了当前安全评估和对齐程序的重大缺陷。

生成利用攻击:简单却致命

研究团队通过系统评估,发现利用不同的生成配置可以显著提高攻击成功率。他们在 11 个开源 LLM 上进行了实验,结果表明,攻击成功率可提高到超过 95%。这比当前最先进的攻击方法快了约 30 倍,且无需复杂的计算资源。更重要的是,研究者们强调,当前的对齐程序往往是基于默认的解码设置,而这些设置可能在稍微变化时显示出脆弱性。

例如,在对 LLAMA2-7B-CHAT 模型的攻击实验中,研究人员观察到,去除系统提示(system prompt)可以使攻击成功率从 0% 提高到 81%。这表明,系统提示在保持模型输出的对齐性方面起着至关重要的作用。

改进对齐方法的必要性

考虑到这些模型的脆弱性,研究团队提出了一种新的对齐策略,称为“生成感知对齐”(generation-aware alignment)。该策略通过主动收集在不同解码配置下生成的模型输出,以增强模型抵御生成利用攻击的能力。实验表明,这种新方法能够将攻击成功率从 95% 降低至 69%。

在与专有模型(如 ChatGPT)的比较中,研究发现开源模型的攻击成功率远高于专有模型,后者的攻击成功率仅为 7%。这突显出开源模型在安全性上的不足,尽管它们在可访问性和可扩展性方面具有优势。

未来展望

基于上述研究结果,研究团队呼吁更多的全面红队测试(red teaming)和更好的对齐方法,以确保在发布开源 LLM 之前,充分评估模型的安全性和潜在风险。未来,他们计划进一步探索生成利用攻击的转移性,以及在多模态模型中的应用。

在 AI 技术迅速发展的今天,确保模型的安全性与伦理性显得尤为重要。只有通过不断的研究和改进,我们才能在享受 AI 带来便利的同时,有效规避潜在风险。

参考文献

  1. Huang, Y. , Gupta, S., Xia, M., Li, K., Chen, D. (2024). Catastrophic Jailbreak of Open-Source LLMs via Exploiting Generation. ICLR 2024.
  2. Ouyang, L. , et al. (2022). Training language models to follow instructions with human feedback.
  3. Zou, J. , et al. (2023). Adversarial prompts for large language models.
  4. Bai, Y. , et al. (2022). Aligning language models to follow instructions.
  5. Touvron, H. , et al. (2023). LLaMA: Open and efficient foundation language models.

0 0 投票数
Article Rating
订阅评论
提醒
0 评论
最多投票
最新 最旧
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x