🌟 探索语言模型的未来：层次自回归变换器的实现细节

在自然语言处理（NLP）的领域，模型的表现与其对文本的处理方式密切相关。近年来，随着深度学习的快速发展，基于变换器的模型成为了主流。然而，传统的子词分词方法在处理新领域或语言时常常面临挑战。为了解决这些问题，Pit Neitemeier 等人提出了一种创新的层次自回归变换器架构，结合了字符级和词级处理的优点。本文将深入探讨这一算法的具体实现过程及其细节。

📜 1. 引言

在NLP中，分词是将文本分解为计算模型可以处理的单元的基础步骤。尽管子词分词方法已成为标准，但它们在适应新领域和语言、处理拼写错误等方面存在局限性。为了解决这些问题，Neitemeier 等人提出了一种层次结构的自回归语言建模方法，该方法结合了字符级和词级处理。

🔍 2. 层次自回归变换器架构

2.1 架构概述

该架构主要由三个组件组成：

编码器（Encoder）：一个双向变换器，处理每个词内的字符嵌入。
主干（Backbone）：一个因果变换器，处理词嵌入。
解码器（Decoder）：一个因果变换器，输出下一个字符的预测。

2.2 分词规则

该方法使用 UTF-8 字节作为基本字母表，利用 Unicode 空白字符将文本分割为词。文本表示为 $(w_1, \ldots, w_L. $，其中 $w_i \in [V_B]^{\ell_i}$ 是长度为 $\ell_i$ 的词。分词规则是唯一的非可训练处理步骤，适用于自然文本。✅

2.3 编码器的实现

在编码器中，每个词前面加上一个特殊标记 [W]，并通过字符嵌入矩阵 $C$ 将字符嵌入映射到 $d$ 维空间。编码器的输出对应于 [W] 标记的激活值，作为词嵌入 $e_i$：

$e_i = E(x_{[W]}, x_{i1}, \ldots, x_{i\ell_i})_1 \in\mathbb{R}^d$

2.4 主干的实现

主干处理的词嵌入序列被投影到更高维度，经过主干模型 $B$ 处理后，输出被投影回解码器维度：

$\tilde{e}_i = W_E e_i \in \mathbb{R}^D, \quad \tilde{p}_i =B(\tilde{e}_1, \ldots, \tilde{e}_L)_i \in \mathbb{R}^D$

2.5 解码器的实现

解码器将预测的词嵌入与下一个词的字符嵌入连接，生成下一个字符的预测逻辑：

$l_{ij} = D(p_i, x_{i+1 1}, \ldots, x_{i+1 \ell_{i+1}})_{ij} \in\mathbb{R}^{V_B}$

2.6 训练过程

模型的训练目标是最小化字符级交叉熵损失：

$\sum_{i=1}^{L} \sum_{j=1}^{\ell_i + 1} L(l_{ij}, w_{i+1 j})$

其中 $L$ 表示字符级交叉熵损失，最终预测目标为 $w_{i+1 \ell_{i+1}+1} = [W]$，表示词的结束。

📈 3. 计算成本分析

在计算成本方面，作者对层次模型与基线模型进行了详细的比较。基线模型的计算成本为：

$C_{\text{baseline}} = S_T P_{\text{backbone}}^{\text{baseline}} + S_T P_{\text{head}}^{\text{baseline}}$

而层次模型的计算成本为：

$C_{\text{hierarchical}} = S_W P_{\text{backbone}}^{\text{hierarchical}} + 2(S + S_W) P_{\text{char}}^{\text{hierarchical}}$

通过这种方式，层次模型能够在相同的计算预算下，处理更大的主干模型。

🧪 4. 实验设置与结果

在实验中，作者对比了基于子词分词的模型和层次模型在多个任务上的表现。实验结果显示，层次模型在多个评估任务上表现优异，尤其是在处理输入扰动时表现出更强的鲁棒性。

4.1 预训练实验

在预训练实验中，层次模型与基线模型在字节和词级准确率上表现相似，但在某些任务上，层次模型的表现优于基线模型。例如，在 Lambada 评估任务中，层次模型的相对优势达到了68%。

4.2 适应性实验

在跨语言的继续预训练实验中，层次模型在新的语言上表现出更好的适应性，同时在原有语言的评估上也保持了较高的准确率。这一现象归因于层次模型能够有效地处理新的词汇，而基线模型则受到固定词汇表的限制。

🏁 5. 结论

层次自回归变换器架构通过结合字符级和词级处理，消除了对固定词汇表的依赖。实验结果表明，该架构在多个NLP任务上表现出色，具有更强的鲁棒性和适应性。未来的研究可以探索不同的编码器和解码器模型，以及在更高层次的层次结构中引入句子或段落的处理。

📚 参考文献

Neitemeier, P. , Deiseroth, B., Eichenberg, C., & Balles, L. (2025). Hierarchical Autoregressive Transformers: Combining Byte- and Word-Level Processing for Robust, Adaptable Language Models. Aleph Alpha Research.✅
Gage, P. (1994). A New Algorithm for Data Compression.✅
Sennrich, R. , Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units.✅
Devlin, J. , Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.✅
Touvron, H. , et al. (2023). Llama: Open and Efficient Foundation Language Models.✅

通过对层次自回归变换器的深入分析，我们可以看到，这种新颖的架构在处理自然语言时展现出了巨大的潜力，未来有望在更广泛的应用场景中发挥作用。