借一步网
作者:
在
预训练语言模型(PLM)在自然语言处理领域取得了巨大成功,但它们通常使用固定的、不更新的数据进行训练。在现实世界中,各种来源的数据不断增长,如何让PLM持续学习新知识,同时保留旧知识成为了一个关键问题。
传统的解决方案要么重新训练整个模型,这既低效又昂贵,要么只在新的数据上训练,容易导致灾难性遗忘,即模型忘记之前学到的知识。为了解决这个问题,清华大学自然语言处理实验室提出了ELLE框架,旨在让PLM能够持续高效地吸收新领域知识,同时避免遗忘旧知识。
ELLE框架的核心思想是通过逐步扩展模型来提高学习效率,并使用领域提示词来区分不同领域的知识。
1. 维持网络功能的模型扩展
ELLE使用一种名为功能保留模型扩展 (FPE) 的方法,在模型训练过程中逐步扩展模型的宽度和深度,以提高模型的学习能力。
2. 领域提示词
为了让模型区分不同领域的知识,ELLE在每个领域的文本前预先植入一个可学习的领域提示词,例如<News>。在模型进行下游任务微调时,也会在任务句子前添加对应领域的提示词。
<News>
研究人员使用来自五个领域的五个语料库进行实验,包括维基百科和书籍语料库、新闻文章、亚马逊评论、生物医学论文和计算机科学论文。实验结果表明,ELLE在预训练效率和下游性能方面均优于各种持续学习基线方法。
1. 更高效的预训练: ELLE在预训练过程中遗忘的旧知识最少,同时能够更好地掌握所有领域知识。
2. 更好的下游任务表现: 在各个领域的预训练阶段后,ELLE在各个领域下游任务上的表现也显著优于其他基线方法。
ELLE框架为解决预训练语言模型持续学习问题提供了新的思路,它能够让PLM持续而高效地吸收新领域数据,最终有可能形成一个巨大的通用模型。研究人员希望有更多关注高效持续预训练问题的工作出现。
参考文献:
要发表评论,您必须先登录。
预训练语言模型(PLM)在自然语言处理领域取得了巨大成功,但它们通常使用固定的、不更新的数据进行训练。在现实世界中,各种来源的数据不断增长,如何让PLM持续学习新知识,同时保留旧知识成为了一个关键问题。
传统的解决方案要么重新训练整个模型,这既低效又昂贵,要么只在新的数据上训练,容易导致灾难性遗忘,即模型忘记之前学到的知识。为了解决这个问题,清华大学自然语言处理实验室提出了ELLE框架,旨在让PLM能够持续高效地吸收新领域知识,同时避免遗忘旧知识。
ELLE框架:如何让模型持续学习?
ELLE框架的核心思想是通过逐步扩展模型来提高学习效率,并使用领域提示词来区分不同领域的知识。
1. 维持网络功能的模型扩展
ELLE使用一种名为功能保留模型扩展 (FPE) 的方法,在模型训练过程中逐步扩展模型的宽度和深度,以提高模型的学习能力。
2. 领域提示词
为了让模型区分不同领域的知识,ELLE在每个领域的文本前预先植入一个可学习的领域提示词,例如
<News>
。在模型进行下游任务微调时,也会在任务句子前添加对应领域的提示词。实验结果:ELLE的优势
研究人员使用来自五个领域的五个语料库进行实验,包括维基百科和书籍语料库、新闻文章、亚马逊评论、生物医学论文和计算机科学论文。实验结果表明,ELLE在预训练效率和下游性能方面均优于各种持续学习基线方法。
1. 更高效的预训练: ELLE在预训练过程中遗忘的旧知识最少,同时能够更好地掌握所有领域知识。
2. 更好的下游任务表现: 在各个领域的预训练阶段后,ELLE在各个领域下游任务上的表现也显著优于其他基线方法。
未来展望
ELLE框架为解决预训练语言模型持续学习问题提供了新的思路,它能够让PLM持续而高效地吸收新领域数据,最终有可能形成一个巨大的通用模型。研究人员希望有更多关注高效持续预训练问题的工作出现。
参考文献: