





我们的研究重点在于掩码扩散模型,并推导出一个简化的 Rao-Blackwellized 目标函数。这个目标函数在训练过程中具有更低的方差,并提高了紧密性。


假设我们有一个包含 K 个类别的离散随机变量,用一个“one-hot”列向量表示。掩码过程可以被看作是一个将输入数据逐步转换为 “[MASK]” 标记的过程。

在每个时间步 t,输入数据 x 会以一定的概率转换为 “[MASK]” 标记 m。如果输入数据在任何时间步 t’ 被转换为 m,那么它将在所有 t > t’ 时间步保持为 m。


逆向过程是将噪声数据恢复为原始数据的过程。我们使用一个神经网络模型 xθ(zt,t) 来近似原始数据 x,并通过一个称为 SUBS 的参数化方法来定义逆向过程。

SUBS 参数化方法有两个关键特性:

  1. 零掩码概率: 我们确保模型的输出中“[MASK]” 标记的概率为零。
  2. 保留解掩码: 如果一个输入数据在时间步 t 未被掩码,那么模型的输出应该与该输入数据相同。

通过这些特性,我们可以简化目标函数,并得到一个更紧凑的 Rao-Blackwellized 目标函数。


将掩码扩散模型应用于语言建模,我们可以将每个词语视为一个离散随机变量。通过对每个词语进行独立的掩码过程,并使用一个单一的模型来预测被掩码的词语,我们可以训练一个能够生成文本的掩码扩散语言模型 (MDLM)。

MDLM 的目标函数是一个加权平均的掩码语言模型损失,这表明 MDLM 与 BERT 这样的仅编码器模型之间存在着密切的联系。


我们的实验结果表明,MDLM 在语言建模基准测试中取得了新的最先进水平,并接近自回归模型的性能。

  • MDLM 在 LM1B 和 OWT 数据集上都取得了比以往扩散模型更好的困惑度,并接近自回归模型的困惑度。
  • MDLM 在零样本评估中也表现出色,在某些情况下甚至超越了自回归模型。
  • MDLM 可以被用于微调 BERT 模型,使其具有生成能力,同时保持其在各种下游任务上的性能。
  • MDLM 还能够以半自回归的方式生成任意长度的文本,并且比现有的半自回归模型更快。


本文介绍了一种简单而有效的掩码扩散语言模型 (MDLM)。MDLM 通过一个简化的 Rao-Blackwellized 目标函数和有效的训练方法,在语言建模方面取得了显著的进展。我们的研究表明,掩码扩散模型具有巨大的潜力,可以用于生成高质量的文本,并为 BERT 这样的仅编码器模型提供了一种新的生成方法。


