Monarch Mixer: 重新审视BERT,无需注意力机制或多层感知器

220次阅读
没有评论

引言:
近年来,Transformer 模型在自然语言处理和计算机视觉等领域取得了巨大成功。然而,我们是否只有 Transformer 这一种模型可以达到如此惊人的性能呢?这是一个我们一直在思考的问题。为了回答这个问题,斯坦福大学的研究人员提出了一种新的架构——Monarch Mixer(M2),它在序列长度和模型维度上都是次二次的,同时在性能上能够与 Transformer 媲美甚至超越。

Monarch Mixer 架构:
Monarch Mixer 的基本思想是用 Monarch 矩阵替换 Transformer 的主要组件。Monarch 矩阵是一类结构化矩阵,它广义上推广了快速傅里叶变换(FFT),具有次二次的计算复杂度,同时在硬件上更加高效和表达能力强。Monarch Mixer 使用由 Monarch 矩阵构建的层来实现序列内的混合(类似 Transformer 中的注意力机制)和模型维度上的混合(类似 Transformer 中的多层感知器)。与 MLP Mixer 和 ConvMixer 等工作类似,Monarch Mixer 将所有组件替换为单一的原语,从而实现了全面的次二次架构。

Monarch Mixer 与 BERT 的结合:
作为对这一思想的首次验证,研究人员选择了 BERT 作为目标模型。他们将 BERT 中的注意力机制替换为受到注意力自由模型的启发,并用一些简单的块对角矩阵替换了 MLP。所有这些操作都可以用 Monarch 矩阵来实现。此外,他们还对模型进行了一些微调,如添加额外的卷积连接和在微调过程中使用平均池化等。通过这些改进,他们成功地构建了 Monarch Mixer BERT(M2-BERT)模型。

M2-BERT 的性能:
研究人员对 M2-BERT 模型进行了评估,并与标准的 BERT 模型进行了比较。令人惊讶的是,即使在参数数量较少的情况下,M2-BERT 模型的性能也相当不错。例如,M2-BERT-base 模型(80M 参数)在 GLUE 任务上的平均得分超过了标准 BERT-base 模型(110M 参数)。此外,通过参数匹配,M2-BERT-base 模型的性能还有进一步提升。

长序列的优势:
Monarch Mixer 架构的一个潜在优势是在处理长序列时的速度和可扩展性。由于 M2 在模型维度上是次二次的,因此可以减少计算量。而序列混合器在序列长度上也是次二次的,这意味着它具有处理更长序列的潜力。

结论:
Monarch Mixer 是一种新颖的架构,它通过使用次二次的 Monarch 矩阵替换 Transformer 的组件,实现了与 Transformer 相媲美甚至超越的性能。尽管目前还处于早期阶段,但 M2-BERT 模型已经展现出了很大的潜力。未来的研究将进一步探索 Monarch Mixer 架构的优化和应用。


Learn more:

  1. Monarch Mixer: Revisiting BERT, Without Attention or MLPs · Hazy Research
  2. 替代 Transformer!斯坦福提出新架构:Monarch Mixer,无需 Attention,性能更强~- 腾讯云开发者社区 - 腾讯云
  3. Monarch Mixer:介绍一种性能比 Transformer 更强的网络架构 -CSDN 博客
正文完
 
评论(没有评论)