在当今信息爆炸的时代,互联网内容审核如同守护网络净土的卫士,默默地保护着我们免受仇恨言论、暴力图片、虚假信息等不良内容的侵害。 👿 然而,传统的审核手段却如同拿着老式火铳的士兵,面对日新月异的网络内容,显得力不从心。
幸运的是,大型语言模型(LLM)的出现,为内容审核带来了革命性的改变。 💪 LLM就像装备了先进武器的战士,能够更精准、高效地识别和过滤有害信息。在这篇文章中,我们将介绍一项利用RWKV模型进行内容审核的最新研究,并探讨其在构建更安全、更友好的网络环境方面的巨大潜力。
📚 相关工作
在深入探讨RWKV模型之前,让我们先来看看内容审核领域的一些重要研究。
1. 以规则为示例:利用逻辑规则进行可解释的仇恨言论检测
传统的基于规则的启发式方法虽然透明且易于解释,但在灵活性和鲁棒性方面存在不足。深度学习模型虽然在克服这些限制方面显示出潜力,但往往缺乏透明度,导致信任度和采用率不高。为了解决这个问题,RBE应运而生。RBE通过学习仇恨内容及其逻辑规则的丰富嵌入表示,允许通过规则基础进行可解释的预测。实验结果表明,RBE在三个基准数据集上的监督和非监督环境中都优于最先进的分类器,展示了其有效性和改进内容审核系统的潜力。
2. 从混合模态的不对称角度重新思考多模态内容审核
传统的单模态审核系统可能难以检测跨越多种模态的有害内容,例如结合了图像和文本的表情包。为了解决这个问题,AM3采用了一种独特的不对称融合架构,在有效结合不同模态信息的同时保留了每种模态的独特特征。为了解决视觉和语言之间的语义不对称性,AM3采用了跨模态对比损失来学习多模态内容传达的独特知识。大量实验表明,AM3在多模态和单模态内容审核任务上均优于现有方法,展示了其在处理网络上各种有害内容方面的有效性。
🗃️ 数据集和数据准备
为了训练和评估内容审核模型,研究人员创建了一个包含文本、图像、音频和视频的多模态数据集。
模态 | 来源 | 内容类型 |
---|---|---|
文本 | Civil Comments, OIG Moderation, OpenAI moderation | 用户帖子、对话 |
图像 | LSPD, NSFW GitHub repo, Kaggle Violence Images | NSFW、暴力、正常图像 |
音频 | Real Life Violence Situations Dataset | 从视频中提取 |
视频 | LSPD, VSD, NDPI2k, XD-Violence | 暴力、色情、正常视频 |
数据准备过程:
- 数据收集: 从多个来源收集数据,确保内容和场景的多样性。
- 预处理: 对文本进行清洗和规范化;根据内容类型对图像进行过滤和分类;使用 OpenAI 的 Whisper 对音频进行转录;提取视频帧和音轨进行多模态分析。
- 指令生成: 使用 GPT-4 为每种模态创建一组 20 条不同的指令,重点关注内容审核任务。
- 指令-响应对创建: 使用 GPT4 模型根据输入文本生成对指令的响应;使用 GPT4V 生成描述和审核决策;结合转录、视觉分析和审核指令处理音频/视频数据。
- 多模态集成: 对齐来自不同模态的数据,创建一个连贯的数据集,以捕捉现实世界内容审核场景的复杂性。
指令-响应对示例:
模态 | 指令 | 响应 |
---|---|---|
文本 | 评估此评论是否存在仇恨言论 输入:“所有 [种族群体] 都应该离开这个国家!” | 此评论包含针对特定种族群体的仇恨言论。 应将其标记为需要审核… |
图像 | 识别此图像中的任何 NSFW 内容 [图像内容描述] | 图像包含露骨的裸体,应归类为 NSFW… |
音频 | 检测此音频片段中的暴力迹象 [音频转录] | 音频包含喊叫和肢体冲突的声音,表明可能存在暴力行为… |
数据集统计数据:
- 558,958 个文本指令-响应对
- 83,625 个图像指令-响应对
🚀 模型微调
研究人员对三种不同的模型架构进行了微调,以进行内容审核:
- Mod-RWKV: 基于 RWKV 版本 5 的新型模型,专为内容审核任务而设计。 该模型包含 30 亿个参数,使用定制的文本指令数据集进行了优化。
- 训练配置:
- 学习率:自适应,从 0.0006 开始,降低到 0.0004,使用 Adam 优化器(beta1 = 0.9,beta2 = 0.99)。
- 梯度检查点:启用以提高内存效率。
- 低秩自适应 (LoRA) 参数:r = 8 和 α = 16,LoRA dropout 率为 0.01。
- 权重衰减:设置为 0.01 以帮助防止过拟合。
- 训练环境和硬件:
- 持续时间:训练时间约为 1 天 16 小时。
- 硬件:使用 24 个 CPU 内核和 4 个 NVIDIA L4 GPU。
- 数据集:包括 Civil Comments 和 OIG Moderation 合并为单一数据集格式。
- 训练配置:
- Mod-LLaVA: LLaVA 版本 1.5 框架的改编版本,专为内容审核而设计。 该模型有 70 亿和 130 亿个参数两种配置,使用专门的图像指令数据集进行了微调。
- 数据集平衡和预处理: 为了解决初始数据集中 NSFW 图像占主导地位的问题,研究人员策略性地删除了一部分 NSFW 内容,确保了类别之间的更均衡分布。
- 视觉处理: LLaVa 通过一个简单的投影矩阵将预先训练好的 CLIP ViT-L/14 视觉编码器与 Vicuna 语言模型集成在一起。 研究人员从一个预先训练好的模型开始,然后通过以下阶段对其进行微调:
- 阶段 1:特征对齐预训练。 在这个阶段,仅对投影矩阵进行调整,利用 CC3M 数据集的一部分来确保特征的对齐。
- 阶段 2:全面的端到端微调:
- 视觉聊天:在这个阶段,使用为日常对话应用程序定制的多模态数据集对 LLaVA 进行微调,增强其在视觉聊天场景中的响应能力和交互能力。
- Science QA:在这里,使用专注于科学问题和答案的专门多模态数据集对 LLaVA 进行微调,旨在增强其在科学领域的性能。
- 图像指令:进一步微调 LLaVA,使用包含与内容审核相关的图像的定制数据集,改进模型处理和理解基于图像的指令的能力。
- 训练配置: 训练使用混合精度 (bf16) 进行了一个 epoch。 为训练和评估设置了特定的批量大小,梯度累积设置为 1。研究人员实施了基于步骤的保存策略,并且没有执行中间评估。
- 学习率: 使用的初始学习率为 2 × 10^-5,使用 cosine 学习率调度器,预热比例为 0.03。
- 日志记录和内存优化: 执行了逐步日志记录,并激活了梯度检查点以优化内存使用。 还利用了延迟预处理。
- 计算资源: 训练在 8 个 A100 SXM 80GB GPU 上进行,支持 256 个 vCPU 和 2002 GB RAM,每小时成本为 18 美元。 训练具有 70 亿个参数的模型需要 4 个小时,总成本为 72 美元。 130 亿个参数的模型需要 8 个小时来训练,总成本为 144 美元。
- Mod-VisualRWKV: VisualRWKV 版本 5 的专业版本,专注于基于图像的内容审核。 该模型配备了 30 亿个参数,使用专门为此目的开发的图像指令数据集进行了微调。
- 数据集平衡和预处理: 为了解决初始数据集中 NSFW 图像占主导地位的问题,研究人员策略性地删除了一部分 NSFW 内容,确保了类别之间的更均衡分布。
- 视觉处理: 对于视觉处理,研究人员使用了 CLIP ViT-L/14 视觉塔。 该组件处理图像并将它们转换为嵌入,然后将其投影以匹配 RWKV 的嵌入大小,从而实现与文本数据的无缝集成。
- 模型初始化: VisualRWKV 模型通过创建一个 RWKV 实例并加载预先训练好的权重(如果可用)来进行初始化。 然后,它建立视觉处理组件和投影层,以使视觉嵌入的维度与 RWKV 模型的嵌入对齐。
- 冻结层: 该模型提供了冻结 RWKV 层或投影层的方法,这在微调期间有利于维护某些学习到的表示。
- 前向传递: 在前向传递中,处理图像和文本数据以生成嵌入,然后将其传递给 RWKV 模型以生成输出,例如用于分类任务的 logits。
- 训练配置: 训练在 NVIDIA A100 GPU 上使用混合精度 (bf16) 进行了一个 epoch。 实施了基于步骤的保存策略,无需执行中间评估。
- 日志记录和内存优化: 执行了逐步日志记录,并激活了梯度检查点以优化内存使用。 还利用了延迟预处理。
- 计算资源: 训练使用了 8 个 A100 SXM 80GB GPU,配备 256 个 vCPU 和 2002 GB RAM,每小时成本为 18 美元。 训练时间为 3 小时。
🏆 实验和评估
为了评估模型的有效性,研究人员使用了 ToxiGen 和 Porn Lab Dataset 中的 NSFW 图像作为基准。 评估指标是准确率,即模型正确分类实例的比例。
结果:
模型 | 准确率
🚧 局限性和未来工作
未来工作:
⚖️ 伦理
🏁 结论这项研究表明,RWKV 模型在内容审核方面具有巨大潜力。 通过使用多模态数据集和微调模型架构,研究人员能够显着提高模型检测和过滤有害内容的能力。 然而,仍然存在局限性,需要进一步的研究来解决这些问题。 通过持续的努力,我们可以开发出更有效的内容审核技术,并创建一个更安全、更友好的在线环境。 参考文献 [1] Schmidt and Wiegand [2017a] [2] Davidson et al. [2017] [3] Duncombe [2020] [4] Nakamura et al. [2019] [5] Vosoughi et al. [2018]
订阅评论
登录
请登录后发表评论
0 评论
最旧
|
---|