在预训练大型语言模型中,稀疏化是成功的关键

当今的人工智能领域,尤其是在自然语言处理(NLP)中,预训练-微调的范式已经成为一种主流的方法。这种方法利用在大规模数据集上进行预训练的模型,然后将其微调到特定的下游任务上。然而,随着模型参数数量的激增,完整微调所有参数的成本变得异常高昂。因此,如何有效地将这些预训练的模型适应到下游任务中,成为了一个引人深思的问题。

参数高效微调:稀疏化的魅力

为了解决这一问题,研究者们提出了一系列参数高效微调(PEFT)的方法。这些方法的核心思想是通过仅更新一小部分参数来实现类似于全面微调的性能。例如,Houlsby等(2019)提出的Adapter方法,通过在预训练模型的不同层之间插入一个瓶颈结构,使得只更新瓶颈层的参数,从而实现了参数的高效利用。

另一个著名的例子是LoRA(Hu et al., 2021),该方法通过冻结预训练模型的权重,并在每个Transformer层中插入可训练的秩分解矩阵,从而实现了高效的微调。尽管这些方法已经展示出了一定的有效性,但它们的基本原理仍然不够明确。

在这项研究中,我们通过PAC-Bayesian泛化误差界限的视角,探索了预训练模型的微调效率。PAC-Bayesian理论允许我们考虑先验知识作为贝叶斯先验,而不假设先验的真实性,这为理解模型的泛化能力提供了新的视角。我们发现,通过预训练,模型的先验分布发生了显著的变化,这使得模型在微调时能够更有效地找到优化的解。

从随机初始化到预训练初始化的转变

在预训练过程中,模型学习了诸如语法和语义等基本语言特征,进而导致其参数空间中的某些维度变得更加重要。同时,这种先验的转变使得模型的损失景观从平缓的振荡转变为更尖锐的振荡。这种变化可以通过可视化损失景观来理解。

例如,通过对RoBERTa模型进行实验,我们发现随机初始化的损失景观相对平坦,而预训练后的损失景观则呈现出更为尖锐的特征。这一现象表明,预训练模型的优化空间已经被压缩,导致在微调过程中仅需更新少量的参数即可获得良好的性能。这种现象的背后是梯度分布的“准稀疏性”,即少数参数主导了大部分的梯度范数。

稀疏增量微调(SIFT):一种新的方法论

基于上述的理论基础,我们提出了一种新的微调算法——稀疏增量微调(SIFT)。SIFT的核心思想是仅更新梯度值较大的少量参数,从而在不改变模型结构的情况下,实现参数的高效利用。与传统的PEFT方法不同,SIFT不需要插入额外的模块,而是直接对预训练模型的参数进行稀疏更新。

具体而言,SIFT通过在反向传播中插入钩子函数来获取稀疏梯度,并在参数更新时仅对这些稀疏梯度进行操作。这种方法不仅提高了内存的使用效率,还能在多种任务上表现出色。

在GLUE基准测试中,我们的实验结果显示,SIFT在微调RoBERTa模型时,能够在仅使用0.8M可训练参数的情况下,获得与全微调相当的性能。这一结果证明了稀疏更新的有效性,并为未来的研究提供了新的方向。

总结与展望

总结而言,我们的研究揭示了预训练大型语言模型在微调过程中的一些关键特性,包括梯度的准稀疏性和优化空间的压缩。这些发现为我们深入理解模型的泛化能力提供了重要的视角。同时,SIFT作为一种新的微调方法,展示了如何在不增加模型复杂度的情况下,实现更高效的参数更新。

未来,我们计划进一步探索SIFT在更大规模模型和更复杂任务中的应用潜力,同时也希望能通过理论与实践的结合,推动NLP领域的进一步发展。

参考文献

  1. Houlsby, N. , et al. (2019). Parameter-efficient transfer learning for NLP.
  2. Hu, E. , et al. (2021). Lora: Low-rank adaptation of large language models.
  3. Devlin, J. , et al. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding.
  4. McAllester, D. (2003). PAC-Bayesian model averaging.
  5. Li, Z. , & Liang, P. (2021). Prefix-tuning: Optimizing continuous prompts for generation.

通过这一系列的研究和探索,我们不仅希望推动NLP领域的前沿发展,也期望能够为实际应用提供可行的解决方案。

发表评论

人生梦想 - 关注前沿的计算机技术 acejoy.com