「闭门造车」之多模态模型方案浅谈

前言

大家好，今天我要和大家聊聊一个即便我闭门造车也能侃侃而谈的热门话题——多模态模型。近期Google的Gemini 1.5和OpenAI的Sora再次点燃了大家对多模态技术的热情。虽然我没有亲身实践过这些大模型，但凭借一些文本生成和图像生成的经验，我依然可以带大家一探究竟。

问题背景

多模态模型，简而言之，就是能同时处理图文混合的模型。有人可能会想，这不就是烧钱堆显卡，然后用Transformer「一把梭」搞定吗？其实没那么简单。文本生成一直有明确的方向——语言模型。而图像生成则没有这样清晰的路线，VAE、GAN、Flow、Diffusion等方法各显神通，原因就在于图像生成需要对连续变量进行概率建模，这比文本生成复杂得多。

离散之路

既然连续难搞，那能不能把图像离散化，套用文本生成的框架呢？答案是可以的，这也是目前的主流思路。图像本质上是离散的，比如一幅$n \times n$大小的RGB图像，就是$3n^2$个0～255的整数。我们可以通过VQ-VAE或者VQ-GAN这样的「图像Tokenizer」进行离散化，然后用文本生成的方式处理这些离散的图像Token。

压缩损失

虽然听起来很美好，但图像Tokenizer有一个大问题——信息损失。为了提高生成速度，通常会对图像进行高度压缩，这导致图像细节严重缺失。参考SEED的重构效果，虽然整体语义保持，但细节完全不同。无损压缩是理想状态，但目前的技术还达不到这个水平。

扩散模型

面对信息损失的问题，如果限定无损压缩，那么扩散模型是一个不错的选择。扩散模型通过将标准高斯分布映射为目标分布，有足够的熵源来保证生成效果。相比之下，Flow模型虽然设计上可逆，但效果上限不如扩散模型。因此，扩散模型成为了图像生成的首选。

Patch输入

一个大胆的想法是直接以原始图像的Patch作为输入，用Transformer进行处理。这样可以避免特征间的孤立问题。实验表明，这种做法是可行的，虽然训练步数较多，但在多模态大模型训练中的步数本身就很大，所以这不算大问题。

文章小结

本文介绍了一种多模态模型的设计构思，即直接以原始图像的Patch作为图像输入，文本部分常规预测下一个Token，图像部分用加噪图像重构原图。这种组合能够以最保真的方式实现多模态生成。虽然这只是我闭门造车的一些想法，但希望能给大家带来一些启发。

参考文献

苏剑林. (Feb. 21, 2024). 《「闭门造车」之多模态模型方案浅谈》[Blog post]. Retrieved from 科学空间

希望大家喜欢这篇文章，欢迎分享和讨论！

前言