ELLE:让预训练语言模型持续高效吸收新领域知识 2024-06-09 作者 C3P00 预训练语言模型(PLM)在自然语言处理领域取得了巨大成功,但它们通常使用固定的、不更新的数据进行训练。在现实世界中,各种来源的数据不断增长,如何让PLM持续学习新知识,同时保留旧知识成为了一个关键问题。 传统的解决方案要么重新训练整个模型,这既低效又昂贵,要么只在新的数据上训练,容易导致灾难性遗忘,即模型忘记之前学到的知识。为了解决这个问题,清华大学自然语言处理实验室提出了ELLE框架,旨在让PLM能够持续高效地吸收新领域知识,同时避免遗忘旧知识。 ELLE框架:如何让模型持续学习? ELLE框架的核心思想是通过逐步扩展模型来提高学习效率,并使用领域提示词来区分不同领域的知识。 1. 维持网络功能的模型扩展 ELLE使用一种名为功能保留模型扩展 (FPE) 的方法,在模型训练过程中逐步扩展模型的宽度和深度,以提高模型的学习能力。 宽度扩展: 使用Bert2Bert中的功能保留初始化 (FPI),在扩展稠密层新维度时,并非随机初始化,而是复制旧维度参数并进行调整,保证输出结果不变。具体来说,假设旧维度参数为 $w_i$,新维度参数为 $w_j$,则有: $w_j = w_i / N$ 其中,$N$ 为复制的次数。 此外,ELLE还发现,在新维度参数复制后加上一些随机噪声可以防止新维度学习到与旧维度太过相似的知识,从而避免冗余,加速训练。 深度扩展: 每次随机选择一层进行复制并插入到原层后面,保证特征处理顺序不变,并扩展每一层的功能。例如,假设原模型有四层,编号为 1、2、3、4,则深度扩展过程可以表示为: 1234 -> 12234 -> 122344 功能恢复: 由于噪声添加和深度扩展会造成功能损失,ELLE在每次扩展后,都会让新模型在储存少量旧数据的记忆库上进行少量训练,以恢复模型功能。 2. 领域提示词 为了让模型区分不同领域的知识,ELLE在每个领域的文本前预先植入一个可学习的领域提示词,例如<News>。在模型进行下游任务微调时,也会在任务句子前添加对应领域的提示词。 实验结果:ELLE的优势 研究人员使用来自五个领域的五个语料库进行实验,包括维基百科和书籍语料库、新闻文章、亚马逊评论、生物医学论文和计算机科学论文。实验结果表明,ELLE在预训练效率和下游性能方面均优于各种持续学习基线方法。 1. 更高效的预训练: ELLE在预训练过程中遗忘的旧知识最少,同时能够更好地掌握所有领域知识。 2. 更好的下游任务表现: 在各个领域的预训练阶段后,ELLE在各个领域下游任务上的表现也显著优于其他基线方法。 未来展望 ELLE框架为解决预训练语言模型持续学习问题提供了新的思路,它能够让PLM持续而高效地吸收新领域数据,最终有可能形成一个巨大的通用模型。研究人员希望有更多关注高效持续预训练问题的工作出现。 参考文献: ELLE: Efficient Lifelong Learning for Pre-trained Language Models ELLE 代码地址
预训练语言模型(PLM)在自然语言处理领域取得了巨大成功,但它们通常使用固定的、不更新的数据进行训练。在现实世界中,各种来源的数据不断增长,如何让PLM持续学习新知识,同时保留旧知识成为了一个关键问题。
传统的解决方案要么重新训练整个模型,这既低效又昂贵,要么只在新的数据上训练,容易导致灾难性遗忘,即模型忘记之前学到的知识。为了解决这个问题,清华大学自然语言处理实验室提出了ELLE框架,旨在让PLM能够持续高效地吸收新领域知识,同时避免遗忘旧知识。
ELLE框架:如何让模型持续学习?
ELLE框架的核心思想是通过逐步扩展模型来提高学习效率,并使用领域提示词来区分不同领域的知识。
1. 维持网络功能的模型扩展
ELLE使用一种名为功能保留模型扩展 (FPE) 的方法,在模型训练过程中逐步扩展模型的宽度和深度,以提高模型的学习能力。
2. 领域提示词
为了让模型区分不同领域的知识,ELLE在每个领域的文本前预先植入一个可学习的领域提示词,例如
<News>
。在模型进行下游任务微调时,也会在任务句子前添加对应领域的提示词。实验结果:ELLE的优势
研究人员使用来自五个领域的五个语料库进行实验,包括维基百科和书籍语料库、新闻文章、亚马逊评论、生物医学论文和计算机科学论文。实验结果表明,ELLE在预训练效率和下游性能方面均优于各种持续学习基线方法。
1. 更高效的预训练: ELLE在预训练过程中遗忘的旧知识最少,同时能够更好地掌握所有领域知识。
2. 更好的下游任务表现: 在各个领域的预训练阶段后,ELLE在各个领域下游任务上的表现也显著优于其他基线方法。
未来展望
ELLE框架为解决预训练语言模型持续学习问题提供了新的思路,它能够让PLM持续而高效地吸收新领域数据,最终有可能形成一个巨大的通用模型。研究人员希望有更多关注高效持续预训练问题的工作出现。
参考文献: