Sparsity-Accelerated Training for Large Language Models

作者：

在

问题背景

大型语言模型（LLMs）在自然语言处理（NLP）任务中表现出色，但是训练这些模型所需的时间和计算资源成本较高。为了提高模型性能和遵循人类指令的能力，这些模型通常需要进行额外的训练，如持续预训练和监督式微调。然而，由于模型参数众多，这些额外训练过程的成本非常高昂。

提出的解决方案：稀疏加速训练（Sparsity-Accelerated Training, SAT）

为了解决大型语言模型训练成本高昂的问题，研究人员提出了一种名为”Sparsity-Accelerated Training”（SAT）的框架。SAT的核心思想是利用预训练LLMs中的结构稀疏性来加速额外的训练过程。通过观察前向迭代中激活的神经元的稀疏性，SAT框架可以确定哪些神经元是不活跃的，从而排除这些不活跃的神经元，减少计算量，加快训练速度。

实现方法：神经元重要性评估和选择

为了实现SAT框架，研究人员首先需要评估每个神经元的重要性，并选择重要的神经元进行训练。评估神经元重要性的方法是观察前向迭代中激活的神经元的稀疏性，并计算每个神经元的重要性得分。通过选择重要性得分高的神经元，并在训练过程中仅更新这些神经元，可以减少计算量，加快训练速度。

SAT框架在Transformer架构中的应用

SAT框架主要针对基于Transformer架构的LLMs进行研究。在Transformer架构中，SAT框架可以应用于多头注意力（MHA）和多层感知机（MLP）模块。对于MHA，SAT框架选择重要性得分高的头部进行优化；对于MLP，SAT框架选择重要性得分高的通道进行优化。通过稀疏化这些组件中的神经元，SAT框架可以减少计算量，加快训练速度。

梯度遗漏率调度器（LORS）的应用

为了缓解剪枝神经元可能导致的过拟合问题，研究人员在SAT框架中引入了梯度遗漏率调度器（Ladder Omission Rate Scheduler, LORS）。LORS将训练过程分为两个阶段：第一阶段使用恒定的遗漏率进行稀疏训练，第二阶段逐渐降低遗漏率，使模型逐渐变得更密集，直到完全恢复为密集模型。LORS的引入可以提高训练的稳定性和鲁棒性。

实验验证和结果

研究人员在Llama-2模型上进行了实验，验证了SAT框架在持续预训练和监督式微调方面的性能。实验结果表明，SAT在这些任务中取得了与标准训练相媲美甚至更好的性能，同时显著加快了训练速度。此外，研究人员还对SAT框架的效率进行了分析，包括吞吐量、训练时间、内存消耗和浮点运算（FLOPs）等指标。实验结果显示，SAT框架能够在减少计算量的同时保持高效。

结论

Sparsity-Accelerated Training（SAT）框架提出了一种利用预训练LLMs中的结构稀疏性来加速大型语言模型训练的方法。通过评估神经元重要性并选择重要的神经元进行训练，SAT框架能够减少计算量、加快训练速度，并在保持或提高模型性能的同时提高训练效率。SAT框架为大型语言模型的训练提供了一种简单、硬件无关且易于部署的解决方案。

参考文献：

Da Ma, Lu Chen, Pengyu Wang, Hongshen Xu, Hanqi Li, Liangtai Sun, Su Zhu, Shuai Fan, Kai Yu. “Sparsity-Accelerated Training for Large Language Models.” 2024.

AGI AI