在自然语言处理(NLP)的领域,模型的表现与其对文本的处理方式密切相关。近年来,随着深度学习的快速发展,基于变换器的模型成为了主流。然而,传统的子词分词方法在处理新领域或语言时常常面临挑战。为了解决这些问题,Pit Neitemeier 等人提出了一种创新的层次自回归变换器架构,结合了字符级和词级处理的优点。本文将深入探讨这一算法的具体实现过程及其细节。
📜 1. 引言
在NLP中,分词是将文本分解为计算模型可以处理的单元的基础步骤。尽管子词分词方法已成为标准,但它们在适应新领域和语言、处理拼写错误等方面存在局限性。为了解决这些问题,Neitemeier 等人提出了一种层次结构的自回归语言建模方法,该方法结合了字符级和词级处理。
🔍 2. 层次自回归变换器架构
2.1 架构概述
该架构主要由三个组件组成:
- 编码器(Encoder):一个双向变换器,处理每个词内的字符嵌入。
- 主干(Backbone):一个因果变换器,处理词嵌入。
- 解码器(Decoder):一个因果变换器,输出下一个字符的预测。
2.2 分词规则
该方法使用 UTF-8 字节作为基本字母表,利用 Unicode 空白字符将文本分割为词。文本表示为 $(w_1, \ldots, w_L. $,其中 $w_i \in [V_B]^{\ell_i}$ 是长度为 $\ell_i$ 的词。分词规则是唯一的非可训练处理步骤,适用于自然文本。✅
2.3 编码器的实现
在编码器中,每个词前面加上一个特殊标记 [W],并通过字符嵌入矩阵 $C$ 将字符嵌入映射到 $d$ 维空间。编码器的输出对应于 [W] 标记的激活值,作为词嵌入 $e_i$:
2.4 主干的实现
主干处理的词嵌入序列被投影到更高维度,经过主干模型 $B$ 处理后,输出被投影回解码器维度:
2.5 解码器的实现
解码器将预测的词嵌入与下一个词的字符嵌入连接,生成下一个字符的预测逻辑:
2.6 训练过程
模型的训练目标是最小化字符级交叉熵损失:
其中 $L$ 表示字符级交叉熵损失,最终预测目标为 $w_{i+1 \ell_{i+1}+1} = [W]$,表示词的结束。
📈 3. 计算成本分析
在计算成本方面,作者对层次模型与基线模型进行了详细的比较。基线模型的计算成本为:
而层次模型的计算成本为:
通过这种方式,层次模型能够在相同的计算预算下,处理更大的主干模型。
🧪 4. 实验设置与结果
在实验中,作者对比了基于子词分词的模型和层次模型在多个任务上的表现。实验结果显示,层次模型在多个评估任务上表现优异,尤其是在处理输入扰动时表现出更强的鲁棒性。
4.1 预训练实验
在预训练实验中,层次模型与基线模型在字节和词级准确率上表现相似,但在某些任务上,层次模型的表现优于基线模型。例如,在 Lambada 评估任务中,层次模型的相对优势达到了68%。
4.2 适应性实验
在跨语言的继续预训练实验中,层次模型在新的语言上表现出更好的适应性,同时在原有语言的评估上也保持了较高的准确率。这一现象归因于层次模型能够有效地处理新的词汇,而基线模型则受到固定词汇表的限制。
🏁 5. 结论
层次自回归变换器架构通过结合字符级和词级处理,消除了对固定词汇表的依赖。实验结果表明,该架构在多个NLP任务上表现出色,具有更强的鲁棒性和适应性。未来的研究可以探索不同的编码器和解码器模型,以及在更高层次的层次结构中引入句子或段落的处理。
📚 参考文献
- Neitemeier, P. , Deiseroth, B., Eichenberg, C., & Balles, L. (2025). Hierarchical Autoregressive Transformers: Combining Byte- and Word-Level Processing for Robust, Adaptable Language Models. Aleph Alpha Research.✅
- Gage, P. (1994). A New Algorithm for Data Compression.✅
- Sennrich, R. , Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units.✅
- Devlin, J. , Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.✅
- Touvron, H. , et al. (2023). Llama: Open and Efficient Foundation Language Models.✅
通过对层次自回归变换器的深入分析,我们可以看到,这种新颖的架构在处理自然语言时展现出了巨大的潜力,未来有望在更广泛的应用场景中发挥作用。