巨齿龙:无限上下文长度的 LLM 预训练与推理

近年来,大型语言模型(LLM)在各个领域取得了显著的进步,但其在处理长序列数据方面仍然存在挑战。传统的 Transformer 架构由于其二次复杂度和对长度泛化的有限归纳偏差,在处理长序列时效率低下。为了克服这些限制,研究人员提出了各种亚二次复杂度解决方案,例如线性注意力和状态空间模型,但这些方法在预训练效率和下游任务准确性方面通常不如 Transformer。

本文介绍了 巨齿龙(MEGALODON),一种能够高效处理无限上下文长度的序列建模神经架构。巨齿龙继承了 MEGA(带门控注意力的指数移动平均)的架构,并引入了多个技术组件来提升其能力和稳定性,包括:

  • 复指数移动平均(CEMA):将 MEGA 中的多维衰减 EMA 扩展到复数域,进一步提升了 EMA 的表达能力。
  • 时间步归一化层:将组归一化层推广到自回归序列建模任务,允许沿序列维度进行归一化,从而更好地处理序列数据中的内部协变量偏移。
  • 归一化注意力机制:通过对共享表示进行归一化,提高了注意力机制的稳定性,并简化了模型结构。
  • 带两跳残差的预归一化:通过重新排列每个块中的残差连接,有效地缓解了预归一化在模型规模扩大时出现的稳定性问题。

巨齿龙通过将输入序列分割成固定长度的块,在模型训练和推理过程中都实现了线性计算和内存复杂度。

巨齿龙的优势

在与 LLAMA2 的对比实验中,巨齿龙在 70 亿参数规模和 2 万亿训练数据的情况下,展现出比 Transformer 更高的效率。巨齿龙的训练损失达到了 1.70,介于 LLAMA2-7B(1.75)和 LLAMA2-13B(1.67)之间。

巨齿龙在各种下游任务和数据模态的基准测试中,都表现出比 Transformer 更强的鲁棒性,包括:

  • 常识推理:HellaSwag、PIQA、SIQA、WinoGrande、ARC-e 和 ARC-c
  • 世界知识:NaturalQuestions 和 TriviaQA
  • 阅读理解:BoolQ
  • 综合评估:MMLU
  • 长上下文问答:Scrolls 数据集中的 NarrativeQA、Qasper 和 QMSum
  • 指令微调:MT-Bench
  • 图像分类:ImageNet-1K
  • 自回归语言建模:PG-19

巨齿龙的未来展望

巨齿龙的成功为未来的 LLM 研究指明了方向:

  • 巨齿龙能够高效地处理无限上下文长度的序列数据,为处理长文本、多轮对话和视频生成等任务提供了新的可能性。
  • 巨齿龙在各种数据模态的基准测试中都表现出色,表明它有潜力成为未来大规模多模态预训练的通用架构。

参考文献


https://gateway.ipfsscan.io/ipfs/QmY8ia4azH6H351Ss1rXjg27idXyDwdpKWR1kBrrrUd43Q?filename=从第一性原理出发,让深度学习更加生动.pdf

3
0
希望看到您的想法,请您发表评论x