🔥 内容审核的利器：RWKV的多模态实验

在当今信息爆炸的时代，互联网内容审核如同守护网络净土的卫士，默默地保护着我们免受仇恨言论、暴力图片、虚假信息等不良内容的侵害。 👿 然而，传统的审核手段却如同拿着老式火铳的士兵，面对日新月异的网络内容，显得力不从心。

幸运的是，大型语言模型（LLM）的出现，为内容审核带来了革命性的改变。 💪 LLM就像装备了先进武器的战士，能够更精准、高效地识别和过滤有害信息。在这篇文章中，我们将介绍一项利用RWKV模型进行内容审核的最新研究，并探讨其在构建更安全、更友好的网络环境方面的巨大潜力。

📚 相关工作

在深入探讨RWKV模型之前，让我们先来看看内容审核领域的一些重要研究。

1. 以规则为示例：利用逻辑规则进行可解释的仇恨言论检测

传统的基于规则的启发式方法虽然透明且易于解释，但在灵活性和鲁棒性方面存在不足。深度学习模型虽然在克服这些限制方面显示出潜力，但往往缺乏透明度，导致信任度和采用率不高。为了解决这个问题，RBE应运而生。RBE通过学习仇恨内容及其逻辑规则的丰富嵌入表示，允许通过规则基础进行可解释的预测。实验结果表明，RBE在三个基准数据集上的监督和非监督环境中都优于最先进的分类器，展示了其有效性和改进内容审核系统的潜力。

2. 从混合模态的不对称角度重新思考多模态内容审核

传统的单模态审核系统可能难以检测跨越多种模态的有害内容，例如结合了图像和文本的表情包。为了解决这个问题，AM3采用了一种独特的不对称融合架构，在有效结合不同模态信息的同时保留了每种模态的独特特征。为了解决视觉和语言之间的语义不对称性，AM3采用了跨模态对比损失来学习多模态内容传达的独特知识。大量实验表明，AM3在多模态和单模态内容审核任务上均优于现有方法，展示了其在处理网络上各种有害内容方面的有效性。

🗃️ 数据集和数据准备

为了训练和评估内容审核模型，研究人员创建了一个包含文本、图像、音频和视频的多模态数据集。

模态	来源	内容类型
文本	Civil Comments, OIG Moderation, OpenAI moderation	用户帖子、对话
图像	LSPD, NSFW GitHub repo, Kaggle Violence Images	NSFW、暴力、正常图像
音频	Real Life Violence Situations Dataset	从视频中提取
视频	LSPD, VSD, NDPI2k, XD-Violence	暴力、色情、正常视频

数据准备过程：

数据收集: 从多个来源收集数据，确保内容和场景的多样性。
预处理: 对文本进行清洗和规范化；根据内容类型对图像进行过滤和分类；使用 OpenAI 的 Whisper 对音频进行转录；提取视频帧和音轨进行多模态分析。
指令生成: 使用 GPT-4 为每种模态创建一组 20 条不同的指令，重点关注内容审核任务。
指令-响应对创建: 使用 GPT4 模型根据输入文本生成对指令的响应；使用 GPT4V 生成描述和审核决策；结合转录、视觉分析和审核指令处理音频/视频数据。
多模态集成: 对齐来自不同模态的数据，创建一个连贯的数据集，以捕捉现实世界内容审核场景的复杂性。

指令-响应对示例：

模态	指令	响应
文本	评估此评论是否存在仇恨言论输入：“所有 [种族群体] 都应该离开这个国家！”	此评论包含针对特定种族群体的仇恨言论。应将其标记为需要审核…
图像	识别此图像中的任何 NSFW 内容 [图像内容描述]	图像包含露骨的裸体，应归类为 NSFW…
音频	检测此音频片段中的暴力迹象 [音频转录]	音频包含喊叫和肢体冲突的声音，表明可能存在暴力行为…

数据集统计数据：

558,958 个文本指令-响应对
83,625 个图像指令-响应对

🚀 模型微调

研究人员对三种不同的模型架构进行了微调，以进行内容审核：

Mod-RWKV: 基于 RWKV 版本 5 的新型模型，专为内容审核任务而设计。该模型包含 30 亿个参数，使用定制的文本指令数据集进行了优化。
- 训练配置:
  - 学习率：自适应，从 0.0006 开始，降低到 0.0004，使用 Adam 优化器（beta1 = 0.9，beta2 = 0.99）。
  - 梯度检查点：启用以提高内存效率。
  - 低秩自适应 (LoRA) 参数：r = 8 和 α = 16，LoRA dropout 率为 0.01。
  - 权重衰减：设置为 0.01 以帮助防止过拟合。
- 训练环境和硬件:
  - 持续时间：训练时间约为 1 天 16 小时。
  - 硬件：使用 24 个 CPU 内核和 4 个 NVIDIA L4 GPU。
  - 数据集：包括 Civil Comments 和 OIG Moderation 合并为单一数据集格式。
Mod-LLaVA: LLaVA 版本 1.5 框架的改编版本，专为内容审核而设计。该模型有 70 亿和 130 亿个参数两种配置，使用专门的图像指令数据集进行了微调。
- 数据集平衡和预处理: 为了解决初始数据集中 NSFW 图像占主导地位的问题，研究人员策略性地删除了一部分 NSFW 内容，确保了类别之间的更均衡分布。
- 视觉处理: LLaVa 通过一个简单的投影矩阵将预先训练好的 CLIP ViT-L/14 视觉编码器与 Vicuna 语言模型集成在一起。研究人员从一个预先训练好的模型开始，然后通过以下阶段对其进行微调：
  - 阶段 1：特征对齐预训练。在这个阶段，仅对投影矩阵进行调整，利用 CC3M 数据集的一部分来确保特征的对齐。
  - 阶段 2：全面的端到端微调：
    - 视觉聊天：在这个阶段，使用为日常对话应用程序定制的多模态数据集对 LLaVA 进行微调，增强其在视觉聊天场景中的响应能力和交互能力。
    - Science QA：在这里，使用专注于科学问题和答案的专门多模态数据集对 LLaVA 进行微调，旨在增强其在科学领域的性能。
    - 图像指令：进一步微调 LLaVA，使用包含与内容审核相关的图像的定制数据集，改进模型处理和理解基于图像的指令的能力。
- 训练配置: 训练使用混合精度 (bf16) 进行了一个 epoch。为训练和评估设置了特定的批量大小，梯度累积设置为 1。研究人员实施了基于步骤的保存策略，并且没有执行中间评估。
- 学习率: 使用的初始学习率为 2 × 10^-5，使用 cosine 学习率调度器，预热比例为 0.03。
- 日志记录和内存优化: 执行了逐步日志记录，并激活了梯度检查点以优化内存使用。还利用了延迟预处理。
- 计算资源: 训练在 8 个 A100 SXM 80GB GPU 上进行，支持 256 个 vCPU 和 2002 GB RAM，每小时成本为 18 美元。训练具有 70 亿个参数的模型需要 4 个小时，总成本为 72 美元。 130 亿个参数的模型需要 8 个小时来训练，总成本为 144 美元。
Mod-VisualRWKV: VisualRWKV 版本 5 的专业版本，专注于基于图像的内容审核。该模型配备了 30 亿个参数，使用专门为此目的开发的图像指令数据集进行了微调。
- 数据集平衡和预处理: 为了解决初始数据集中 NSFW 图像占主导地位的问题，研究人员策略性地删除了一部分 NSFW 内容，确保了类别之间的更均衡分布。
- 视觉处理: 对于视觉处理，研究人员使用了 CLIP ViT-L/14 视觉塔。该组件处理图像并将它们转换为嵌入，然后将其投影以匹配 RWKV 的嵌入大小，从而实现与文本数据的无缝集成。
- 模型初始化: VisualRWKV 模型通过创建一个 RWKV 实例并加载预先训练好的权重（如果可用）来进行初始化。然后，它建立视觉处理组件和投影层，以使视觉嵌入的维度与 RWKV 模型的嵌入对齐。
- 冻结层: 该模型提供了冻结 RWKV 层或投影层的方法，这在微调期间有利于维护某些学习到的表示。
- 前向传递: 在前向传递中，处理图像和文本数据以生成嵌入，然后将其传递给 RWKV 模型以生成输出，例如用于分类任务的 logits。
- 训练配置: 训练在 NVIDIA A100 GPU 上使用混合精度 (bf16) 进行了一个 epoch。实施了基于步骤的保存策略，无需执行中间评估。
- 日志记录和内存优化: 执行了逐步日志记录，并激活了梯度检查点以优化内存使用。还利用了延迟预处理。
- 计算资源: 训练使用了 8 个 A100 SXM 80GB GPU，配备 256 个 vCPU 和 2002 GB RAM，每小时成本为 18 美元。训练时间为 3 小时。

🏆 实验和评估

为了评估模型的有效性，研究人员使用了 ToxiGen 和 Porn Lab Dataset 中的 NSFW 图像作为基准。评估指标是准确率，即模型正确分类实例的比例。

结果:

模型	准确率 (%)
RWKV 3B	58.7%
Mod-RWKV 3B	66.9%
VisualRWKV 3B	59.1%
Mod-VisualRWKV 3B	84.8%
LLaVA 7B	83.2%
Mod-LLaVA 7B	86.8%
LLaVA 13B	82.4%
Mod-LLaVA 13B	87.3%

🚧 局限性和未来工作

数据集缺乏图像多样性。
数据集可能存在偏差。
GPU 和计算资源有限。
BLIP 框架的性能有限。
当前的指令集有限，可能会引入偏差。
模型缺乏对宗教内容的训练。

未来工作:

使图像数据集多样化。
从头开始开发模型，例如 RWKV，而不是仅仅对其进行微调。
采用类似于 OpenAI 审核 API 的输出格式。
探索模型开发和增强的替代策略，包括直接偏好优化 (DPO) 和从人类反馈中强化学习 (RLHF) 技术。

⚖️ 伦理

检测仇恨言论非常复杂，将其简化为基本的逻辑规则可能会无意中嵌入深层偏见。
处理包含暴力和 NSFW 内容等敏感元素的多模态数据集时，道德 diligence 至关重要。
实施严格的安全协议以防止未经授权的数据访问并确保机密性至关重要。
解决数据集中固有的偏见以促进公平性和包容性至关重要。
采用道德实践进行数据标记和注释，以及对算法选择的清晰解释，是减少偏见和保持透明度的关键。
为负责任地应用内容审核模型制定指南对于减少潜在危害和鼓励道德使用至关重要。
与利益相关者互动并定期评估数据集和模型有效性是维护道德规范和促进持续改进的关键步骤。

🏁 结论

这项研究表明，RWKV 模型在内容审核方面具有巨大潜力。通过使用多模态数据集和微调模型架构，研究人员能够显着提高模型检测和过滤有害内容的能力。然而，仍然存在局限性，需要进一步的研究来解决这些问题。通过持续的努力，我们可以开发出更有效的内容审核技术，并创建一个更安全、更友好的在线环境。

参考文献

[1] Schmidt and Wiegand [2017a]

[2] Davidson et al. [2017]

[3] Duncombe [2020]

[4] Nakamura et al. [2019]

[5] Vosoughi et al. [2018]