WildGuard：LLM安全风险、一站式审核工具

引言

现代语言模型（LLM）在没有充分保障的情况下，可能带来相当大的风险[5, 9, 42, 16, 37]。有效的内容审核对于减轻这些风险至关重要，通过过滤不良输入[24]，监控有害模型输出[17]，并通过测量有害与良性提示的拒绝率来评估模型的安全性[30]。

在本文中，我们介绍了WildGuard，这是一款轻量级、多功能的审核工具，用于评估用户与LLM交互的安全性。WildGuard为三项安全审核任务提供了一站式资源：提示有害性检测、响应有害性检测和响应拒绝检测。我们展示了WildGuard如何在所有三项任务上推动开源安全审核工具的最先进水平，并提供了一种更开放、一致和经济的替代方案，与昂贵且非静态的API审核工具相比，WildGuard表现不相上下甚至更好。

开发WildGuard的动机主要来自两个观察结果。首先，现有的开源工具如Llama-Guard2[17]在识别对抗性提示（即越狱）方面效果较差，远不如GPT-4。其次，虽然现有的开源工具可以在一定程度上识别响应中的有害内容，但仅凭响应的有害性不足以确定模型是否拒绝了用户的请求。这对于测试夸大的安全性尤为重要，例如，当用户询问“如何杀死Python进程？”时，响应通常是良性的，无论是过度拒绝（“我不能提供暴力行为的指示”）还是正确的合规（“杀死Python进程的方法是…”）。因此，分类有害性不足以评估安全性，需要独立评估拒绝。

LLM安全审核工具的现状

测试基准

为了评估对抗性提示中的有害性检测，我们从WildJailbreak（WJ）[3]的验证集中抽样了一组250个良性和250个有害提示。为了评估细微拒绝检测，我们使用了我们新的基准XSTest-Resp。

模型

我们评估了开源和闭源工具。在开源工具中，我们测试了四个模型，旨在识别提示和响应中的有害性：Llama-Guard[17]，Llama-Guard2[26]，Aegis-Guard-Defensive[14]和Aegis-Guard-Permissive[14]。对于这些模型，为了标记拒绝，我们将输出有害的响应标记为合规，如果输出标签是安全的，则标记为拒绝。

发现

发现1：现有的开源工具在对抗性提示上不可靠，远远落后于GPT-4。如图2所示，现有的开源工具在检测普通提示中的有害性方面表现尚可，但在对抗性提示中却表现不佳。对于两种提示类型，我们还看到了开源工具与GPT-4之间的显著性能差距，从而导致对API工具的昂贵依赖持续存在。

发现2：现有的开源工具难以测量模型响应中的拒绝。表2显示了开源工具在识别模型完成中的拒绝方面也存在困难。表现最好的有害检测模型Llama-Guard2比GPT-4低15.1%，验证了响应有害性不足以完成这项任务。

构建WildGuardMix和WildGuard

WildGuardTrain：多任务审核训练数据集

WildGuardTrain（WGTrain）是一个综合训练数据集，共包含86,759项数据，涵盖多种来源的数据，包括普通（直接请求）和对抗性提示。数据覆盖了良性和有害场景，以及各种类型的拒绝和合规响应。

提示构建

我们生成了覆盖广泛风险场景的有害提示，并引入了两种类型的良性对比提示：1）表面上类似不安全提示的良性提示，以及2）讨论敏感但安全话题的良性提示。

合规和拒绝构建

对于我们的合成对抗性和普通提示，我们生成了匹配的拒绝和合规响应。我们使用了一套LLMs以及GPT-4来生成这些响应。

WildGuardTest：高质量人工标注的测试审核数据集

为了构建WildGuardTest（WGTest），我们从合成普通和对抗性数据中抽样了1,725对提示-响应对，并收集了三个独立标注者对每对提示-响应对的标注。

训练WildGuard

使用WGTrain，我们基于Mistral-7b-v0.3[20]训练了WildGuard。我们设计了统一的输入和输出格式，以捕捉三项任务。

评估WildGuard相对于现有LLM安全审核工具的表现

评估设置

我们在十个公开的安全基准和我们的WGTest上测试WildGuard和相关基准。在提示有害性方面，我们使用了ToxicChat[23]，OpenAI Moderation[24]，AegisSafetyTest[14]，SimpleSafetyTests[35]和HarmBenchPrompt[25]。在响应有害性方面，我们使用了HarmBenchResponse[25]，SafeRLHF[10]，BeaverTails[10]和XSTest-Resp。

结果：WildGuard设立了新的多任务最先进水平

WildGuard在提示分类方面表现最佳，超过了所有开源基准，并在WGTest上的表现比GPT-4高出1.8%。在响应有害性方面，WildGuard也超过了所有开源基准，并在两个评估中超过了GPT-4。在拒绝检测方面，WildGuard表现尤为出色，超越了现有开源模型，并与GPT-4的表现差距在4.1%以内。

WildGuard的消融结果

每个主要组件对WildGuard的成功至关重要，多任务训练提高了WildGuard的整体性能。

WildGuard在实际人机交互中的表现

作为实际应用示例，我们在模拟聊天审核使用案例中测试了WildGuard。结果显示，结合WildGuard过滤器的模型在拒绝有害越狱提示和避免过度拒绝方面表现最佳。

结论

我们介绍了WildGuard，这是一款统一的多任务开源LLM安全审核模型，能够检测多种类型的普通和对抗性有害用户提示、有害模型响应和模型拒绝。通过公开的WildGuard模型和WildGuardMix数据集，我们的研究促进了LLM安全审核工具的开放和可靠的发展。

参考文献

Achiam et al. [2023], GPT-4 Technical Report, arXiv preprint arXiv:2303.08774.
AI@Meta [2024], Llama 3 Model Card, URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.
Anonymous, WildTeamming at Scale.
Anthropic, The Claude 3 Model Family: Opus, Sonnet, Haiku, URL: https://api.semanticscholar.org/CorpusID:268232499.
Anwar et al. [2024], Foundational Challenges in Assuring Alignment and Safety of Large Language Models, arXiv preprint arXiv:2404.09932.

(注：此处省略部分参考文献以节省篇幅)