S3：一个简单高效的多模态对话系统

近年来，人工智能 (AI) 领域见证了多模态系统的兴起。这些系统能够无缝整合文本、图像和音频等多种形式的数据，在模拟人类认知能力方面正变得越来越娴熟。然而，该领域的研究人员面临的主要挑战之一是需要大量数据和计算资源来训练最先进的模型。

本文介绍了一种全新的范式，即只需少量数据和计算资源即可构建强大的多模态系统。我们提出了一个简单而有效的基线模型 S3，它挑战了大型数据集和过度计算能力是开发具有竞争力的多模态 AI 系统的先决条件的传统观念。通过使用包含不到 150,000 个多模态样本的精简语料库、预训练的冻结模态编码器、7B 语言模型，以及利用单个 A100-80GB GPU 的计算经济性，我们创建了一个架构简洁优雅、性能可与目前领域内更复杂系统相媲美的模型。我们方法的核心是一个模态投影器，它使用一个简单的多层感知器 (MLP) 将多模态特征映射到标记嵌入中。

S3 的强大之处

S3 的贡献可以概括如下：

我们将一种用于训练多模态投影器的成熟管道应用于多种模态（图像、音频和文本），以训练多模态对话模型。
我们引入了一种用于训练多模态对话模型的高质量有效数据混合。
我们证明了将整个图像映射到 4 个文本标记足以完成多模态对话任务。
我们公开了所获得的模型，该模型显示出与最先进模型相当的性能。

深入 S3 的核心技术

多模态数据预处理的艺术

为了实现多模态对话的目标，我们以标准聊天布局格式化了每个数据集。这种格式将每条消息表示为一个 JSON 对象，其中包含“角色”（指示消息是来自用户还是机器人）、“类型”（指示消息包含图像、音频还是文本）以及消息内容本身（在图像和音频的情况下，这将是文件路径）。

{
  "id": 0,
  "messages": [
    {
      "role": "user",
      "type": "image",
      "text": "https://example.com/images/bird.jpg"
    },
    {
      "role": "user",
      "type": "audio",
      "text": "https://example.com/audio/birdsong.mp3"
    },
    {
      "role": "user",
      "type": "text",
      "text": "How can be the image and the audio related?"
    },
    {
      "role": "bot",
      "type": "text",
      "text": "The image shows a Northern Cardinal,
               and the audio file is its distinctive birdsong."
    }
  ]
}

图1：多模态对话数据 json 格式示例

我们为每个数据集创建了一个自定义系统提示，以引出与原始数据集紧密匹配的机器人响应。例如，对于 TextCaps 数据集，我们选择了“用单个词或短语回答问题”之类的提示，以反映数据集主要包含简短响应的事实。

为了解决许多数据集存在的简短性问题（这些数据集通常由单对问答组成），我们随机将多个简短对话组合成扩展序列，以创建更长的对话。

特殊标记和后处理：解码多模态对话的关键

我们在基础模型的标记器中集成了额外的特殊标记，并解冻了语言模型头和嵌入层，以促进这些新标记的训练。具体来说：

我们引入了模态标记 [M] 和 [/M] 来标记数据中不同模态对象的开始和结束。
我们使用和 [img] 等标记分别对音频和图像内容进行编码。
为了表示对话中的说话者，我们为机器人和用户角色添加了特殊标记。
我们还添加了 [RS] 标记来表示对话中每条消息的开始和结束。

模态投影器：连接视觉和语言的桥梁

模态投影器的作用是调整各种模态对象（如图像和音频）的嵌入，以确保它们与语言模型兼容。在我们的研究中，我们实现了一种基本架构设计，其中使用多个线性层将来自模态编码器的隐藏状态直接映射到语言模型的标记嵌入中。

与 LLaVA 等最先进的模型不同，我们将模态对象映射到 4 个标记中，而不管模态编码器中输出补丁的数量。我们假设少量输出模态标记足以进行基本的视觉理解。此外，仅使用 4 个标记可以显着减少我们传递给 Transformer 的序列长度。

S3 性能评估：在 AI 旅程竞赛和 MMMU 基准测试中脱颖而出

AI 旅程竞赛：展现强大的多模态交互能力

我们在 2023 年 AI 旅程竞赛的“强人工智能”任务中测试了 S3。该竞赛的目标是开发一个能够在文本、图像和音频三种模态之间无缝交互的系统。

结果：在 AI 旅程竞赛中，我们的方法在 30 个参赛队伍中获得了第 4 名。

MMMU 基准测试：验证视觉理解能力

我们使用 MMMU 基准测试来评估 S3 的视觉理解能力，并将其与现有模型进行比较。

结果：我们的系统使用低计数数据混合，在性能方面超过了许多现有模型。在开源的 7B 模型中，它表现出具有竞争力的性能。它甚至可以与在更大的数据集、更大的 LLM 上训练的最先进模型相媲美，仅略逊一筹。

展望未来：迈向更强大的多模态对话系统

我们的研究表明，无需大型数据集或巨大的计算能力即可开发出极具竞争力的多模态对话模型。未来工作应侧重于增加数据集的大小和多样性，尤其是在音频模态方面，因为这可能会进一步提高性能。此外，探索集成更复杂的模态自适应架构也可能有利于进一步增强其功能。

参考文献

[1] Ainslie, J. , Lee-Thorp, J., de Jong, M., Zemlyanskiy, Y., Lebron, F., Sanghai, S.: GQA: Training generalized multi-query transformer models from multi-head checkpoints. In: Bouamor, H., Pino, J., Bali, K. (eds.) Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. pp. 4895–4901. Association for Computational Linguistics, Singapore (Dec 2023). https://doi.org/10.18653/v1/2023.emnlp-main.298, https://aclanthology.org/2023.emnlp-main.298✅
…
[30] Zhu, D. , Chen, J., Shen, X., Li, X., Elhoseiny, M.: Minigpt-4: Enhancing vision-language understanding with advanced large language models. CoRR abs/2304.10592 (2023). https://doi.org/10.48550/ARXIV.2304.10592✅

请注意：由于篇幅限制，此处仅列出部分参考文献，完整列表请参阅原文。