WildGuard：LLM安全风险、一站式审核工具

引言

现代语言模型（LLM）在没有充分保障的情况下，可能带来相当大的风险[5, 9, 42, 16, 37]。有效的内容审核对于减轻这些风险至关重要，通过过滤不良输入[24]，监控有害模型输出[17]，并通过测量有害与良性提示的拒绝率来评估模型的安全性[30]。

在本文中，我们介绍了WildGuard，这是一款轻量级、多功能的审核工具，用于评估用户与LLM交互的安全性。WildGuard为三项安全审核任务提供了一站式资源：提示有害性检测、响应有害性检测和响应拒绝检测。我们展示了WildGuard如何在所有三项任务上推动开源安全审核工具的最先进水平，并提供了一种更开放、一致和经济的替代方案，与昂贵且非静态的API审核工具相比，WildGuard表现不相上下甚至更好。

开发WildGuard的动机主要来自两个观察结果。首先，现有的开源工具如Llama-Guard2[17]在识别对抗性提示（即越狱）方面效果较差，远不如GPT-4。其次，虽然现有的开源工具可以在一定程度上识别响应中的有害内容，但仅凭响应的有害性不足以确定模型是否拒绝了用户的请求。这对于测试夸大的安全性尤为重要，例如，当用户询问「如何杀死Python进程？」时，响应通常是良性的，无论是过度拒绝（「我不能提供暴力行为的指示」）还是正确的合规（「杀死Python进程的方法是…」）。因此，分类有害性不足以评估安全性，需要独立评估拒绝。

LLM安全审核工具的现状

测试基准

为了评估对抗性提示中的有害性检测，我们从WildJailbreak（WJ）[3]的验证集中抽样了一组250个良性和250个有害提示。为了评估细微拒绝检测，我们使用了我们新的基准XSTest-Resp。

模型

我们评估了开源和闭源工具。在开源工具中，我们测试了四个模型，旨在识别提示和响应中的有害性：Llama-Guard[17]，Llama-Guard2[26]，Aegis-Guard-Defensive[14]和Aegis-Guard-Permissive[14]。对于这些模型，为了标记拒绝，我们将输出有害的响应标记为合规，如果输出标签是安全的，则标记为拒绝。

发现

发现1：现有的开源工具在对抗性提示上不可靠，远远落后于GPT-4。如图2所示，现有的开源工具在检测普通提示中的有害性方面表现尚可，但在对抗性提示中却表现不佳。对于两种提示类型，我们还看到了开源工具与GPT-4之间的显著性能差距，从而导致对API工具的昂贵依赖持续存在。

发现2：现有的开源工具难以测量模型响应中的拒绝。表2显示了开源工具在识别模型完成中的拒绝方面也存在困难。表现最好的有害检测模型Llama-Guard2比GPT-4低15.1%，验证了响应有害性不足以完成这项任务。

构建WildGuardMix和WildGuard

WildGuardTrain：多任务审核训练数据集

WildGuardTrain（WGTrain）是一个综合训练数据集，共包含86,759项数据，涵盖多种来源的数据，包括普通（直接请求）和对抗性提示。数据覆盖了良性和有害场景，以及各种类型的拒绝和合规响应。

提示构建

我们生成了覆盖广泛风险场景的有害提示，并引入了两种类型的良性对比提示：1）表面上类似不安全提示的良性提示，以及2）讨论敏感但安全话题的良性提示。

合规和拒绝构建

对于我们的合成对抗性和普通提示，我们生成了匹配的拒绝和合规响应。我们使用了一套LLMs以及GPT-4来生成这些响应。

WildGuardTest：高质量人工标注的测试审核数据集

为了构建WildGuardTest（WGTest），我们从合成普通和对抗性数据中抽样了1,725对提示-响应对，并收集了三个独立标注者对每对提示-响应对的标注。

训练WildGuard

使用WGTrain，我们基于Mistral-7b-v0.3[20]训练了WildGuard。我们设计了统一的输入和输出格式，以捕捉三项任务。

评估WildGuard相对于现有LLM安全审核工具的表现

评估设置

我们在十个公开的安全基准和我们的WGTest上测试WildGuard和相关基准。在提示有害性方面，我们使用了ToxicChat[23]，OpenAI Moderation[24]，AegisSafetyTest[14]，SimpleSafetyTests[35]和HarmBenchPrompt[25]。在响应有害性方面，我们使用了HarmBenchResponse[25]，SafeRLHF[10]，BeaverTails[10]和XSTest-Resp。

结果：WildGuard设立了新的多任务最先进水平

WildGuard在提示分类方面表现最佳，超过了所有开源基准，并在WGTest上的表现比GPT-4高出1.8%。在响应有害性方面，WildGuard也超过了所有开源基准，并在两个评估中超过了GPT-4。在拒绝检测方面，WildGuard表现尤为出色，超越了现有开源模型，并与GPT-4的表现差距在4.1%以内。

WildGuard的消融结果

每个主要组件对WildGuard的成功至关重要，多任务训练提高了WildGuard的整体性能。

WildGuard在实际人机交互中的表现

作为实际应用示例，我们在模拟聊天审核使用案例中测试了WildGuard。结果显示，结合WildGuard过滤器的模型在拒绝有害越狱提示和避免过度拒绝方面表现最佳。

结论

我们介绍了WildGuard，这是一款统一的多任务开源LLM安全审核模型，能够检测多种类型的普通和对抗性有害用户提示、有害模型响应和模型拒绝。通过公开的WildGuard模型和WildGuardMix数据集，我们的研究促进了LLM安全审核工具的开放和可靠的发展。

参考文献

Achiam et al. [2023], GPT-4 Technical Report, arXiv preprint arXiv:2303.08774.
AI@Meta [2024], Llama 3 Model Card, URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.
Anonymous, WildTeamming at Scale.
Anthropic, The Claude 3 Model Family: Opus, Sonnet, Haiku, URL: https://api.semanticscholar.org/CorpusID:268232499.
Anwar et al. [2024], Foundational Challenges in Assuring Alignment and Safety of Large Language Models, arXiv preprint arXiv:2404.09932.

(注：此处省略部分参考文献以节省篇幅)

WildGuard：LLM安全风险、一站式审核工具

引言

LLM安全审核工具的现状

测试基准

模型

发现

构建WildGuardMix和WildGuard

WildGuardTrain：多任务审核训练数据集

提示构建

合规和拒绝构建

WildGuardTest：高质量人工标注的测试审核数据集

训练WildGuard

评估WildGuard相对于现有LLM安全审核工具的表现

评估设置

结果：WildGuard设立了新的多任务最先进水平

WildGuard的消融结果

WildGuard在实际人机交互中的表现

相关工作

结论

参考文献

发表评论取消回复

引言

LLM安全审核工具的现状

测试基准

模型

发现

构建WildGuardMix和WildGuard

WildGuardTrain：多任务审核训练数据集

提示构建

合规和拒绝构建

WildGuardTest：高质量人工标注的测试审核数据集

训练WildGuard

评估WildGuard相对于现有LLM安全审核工具的表现

评估设置

结果：WildGuard设立了新的多任务最先进水平

WildGuard的消融结果

WildGuard在实际人机交互中的表现

相关工作

结论

参考文献

发表评论 取消回复

发表评论取消回复