Monarch Mixer: 重新审视BERT，无需注意力机制或多层感知器

220次阅读

引言：
近年来，Transformer 模型在自然语言处理和计算机视觉等领域取得了巨大成功。然而，我们是否只有 Transformer 这一种模型可以达到如此惊人的性能呢？这是一个我们一直在思考的问题。为了回答这个问题，斯坦福大学的研究人员提出了一种新的架构——Monarch Mixer（M2），它在序列长度和模型维度上都是次二次的，同时在性能上能够与 Transformer 媲美甚至超越。

Monarch Mixer 架构：
Monarch Mixer 的基本思想是用 Monarch 矩阵替换 Transformer 的主要组件。Monarch 矩阵是一类结构化矩阵，它广义上推广了快速傅里叶变换（FFT），具有次二次的计算复杂度，同时在硬件上更加高效和表达能力强。Monarch Mixer 使用由 Monarch 矩阵构建的层来实现序列内的混合（类似 Transformer 中的注意力机制）和模型维度上的混合（类似 Transformer 中的多层感知器）。与 MLP Mixer 和 ConvMixer 等工作类似，Monarch Mixer 将所有组件替换为单一的原语，从而实现了全面的次二次架构。

Monarch Mixer 与 BERT 的结合：
作为对这一思想的首次验证，研究人员选择了 BERT 作为目标模型。他们将 BERT 中的注意力机制替换为受到注意力自由模型的启发，并用一些简单的块对角矩阵替换了 MLP。所有这些操作都可以用 Monarch 矩阵来实现。此外，他们还对模型进行了一些微调，如添加额外的卷积连接和在微调过程中使用平均池化等。通过这些改进，他们成功地构建了 Monarch Mixer BERT（M2-BERT）模型。

M2-BERT 的性能：
研究人员对 M2-BERT 模型进行了评估，并与标准的 BERT 模型进行了比较。令人惊讶的是，即使在参数数量较少的情况下，M2-BERT 模型的性能也相当不错。例如，M2-BERT-base 模型（80M 参数）在 GLUE 任务上的平均得分超过了标准 BERT-base 模型（110M 参数）。此外，通过参数匹配，M2-BERT-base 模型的性能还有进一步提升。

长序列的优势：
Monarch Mixer 架构的一个潜在优势是在处理长序列时的速度和可扩展性。由于 M2 在模型维度上是次二次的，因此可以减少计算量。而序列混合器在序列长度上也是次二次的，这意味着它具有处理更长序列的潜力。

结论：
Monarch Mixer 是一种新颖的架构，它通过使用次二次的 Monarch 矩阵替换 Transformer 的组件，实现了与 Transformer 相媲美甚至超越的性能。尽管目前还处于早期阶段，但 M2-BERT 模型已经展现出了很大的潜力。未来的研究将进一步探索 Monarch Mixer 架构的优化和应用。

Learn more:

正文完

发表至： AGI

2023-11-23

AIGC导致内容生产大爆发的后果

Orca 2：推理技巧赋能小型语言模型，性能超越5-10倍大模型

A Prompt Learning Framework for Source Code Summarization

Prodia Labs：让AI集成变得轻松

QLoRA: 高效微调大型语言模型的利器