🌐 超稀疏BERT：条件稀疏语言建模的99%潜力

作者：

在

在当今的自然语言处理（NLP）领域，语言模型的复杂性与性能之间的平衡越来越受到研究者的关注。近日，NVIDIA和ETH Zürich的研究者们提出了一种名为UltraSparseBERT的新型BERT变体，展现了如何在保持性能的同时显著减少计算资源的使用。该模型在推理阶段仅使用0.3%的神经元，完成与传统BERT模型相似的任务表现，展示了深度学习领域的一次重大突破。

🚀 从稠密到稀疏：模型的革命

语言模型，尤其是基于BERT的架构，通常包含大量的神经元和参数。传统的前馈神经网络在推理时需要激活所有的神经元，导致计算开销巨大。研究者们发现，实际上，在处理每个输入时，仅需激活少量神经元即可获得足够的输出。这一发现促使了UltraSparseBERT的诞生，利用一种称为“快速前馈网络”（Fast Feedforward Networks, FFF）的新架构。

UltraSparseBERT在每层推理过程中仅选择12个神经元进行计算，而不是4095个。这一选择的关键在于采用条件执行的方式，即根据输入的不同，仅激活与之相关的神经元。这样一来，计算效率大幅提升，推理速度提高，极大降低了模型的资源消耗。

⚡ 高效推理的实施

UltraSparseBERT的实现依赖条件矩阵乘法（Conditional Matrix Multiplication, CMM），这一算法的核心在于逐行进行输入和权重的点积运算。具体而言，通过选择在给定输入下最相关的权重列，UltraSparseBERT能够在不牺牲性能的情况下，显著减少所需的计算量。

下面是该算法的伪代码，展示了如何进行快速前馈推理：

函数 CMM(I, Win):
    对于 d ∈ {1, ..., D - 1}:
        L⋆,d ← I ⋅ Win[N⋆,d−1],⋆
        N⋆,d ← 2N⋆,d−1 + 1 + (L⋆,d > 0)
    返回 L, N

通过这个算法，UltraSparseBERT能够在CPU上实现78倍的速度提升，并在GPU上实现4.1倍的速度提升，展示出其在实际应用中的巨大潜力。

🌱 模型性能的保持与评估

在进行一系列下游任务的微调后，UltraSparseBERT在GLUE基准测试上的表现令人瞩目。研究表明，尽管模型在参数稀疏化上取得了显著进展，其在大多数任务上的表现依然保持在96%以上，尤其是对RTE、MRPC、SST等任务的预测表现与原始BERT模型相当。

模型	RTE	MRPC	STSB	SST-2	MNLI	QNLI	QQP	CoLA	平均分
UltraSparseBERT-1×11	57.8	88.1	86.1	89.7	80.2	89.3	87.1	82.3	77.3
crammedBERT-3072	58.8	87.6	85.2	91.9	82.8	90.4	89.0	83.6	79.3

这张表格清晰地展示了UltraSparseBERT在不同任务上的表现，尤其是它在大多数任务上与传统模型相当的能力，充分证明了稀疏神经元选择的有效性。

🌟 总结与展望

UltraSparseBERT的研究不仅展示了条件稀疏性的潜力，更为未来的语言模型设计提供了新的思路。通过高效的资源利用和对神经元的智能选择，UltraSparseBERT为实现更快速、更高效的自然语言处理模型奠定了基础。随着技术的不断进步，未来的语言模型将可能在保证性能的前提下，愈加轻量化和高效化。

参考文献

Belcak, P. , & Wattenhofer, R. (2024). UltraSparseBERT: 99% Conditionally Sparse Language Modelling. ✅Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics.
Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. ✅NeurIPS.
Devlin, J. , Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ✅NAACL.
Wang, A. , et al. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. ✅ICLR.
Geiping, J. , & Goldstein, T. (2023). crammedBERT: An Efficient BERT Model. ✅ACL.

AGI

发表回复取消回复

要发表评论，您必须先登录。