探索语言模型的易学性：从概率有限状态语言的学习视角

引言

大型语言模型究竟能学到什么？这是一个不断被研究的问题。语言模型（LM）本质上是分布在字符串上的概率分布。因此，理解它们的学习能力可以转化为研究它们能学习哪些字符串分布的能力。尽管之前的研究主要集中在理论上的界限，但我们希望从实证角度来理解它们的可学性。不同于先前的研究，我们评估语言模型在其「主场」——学习字符串上的概率分布——而不是作为形式语言的分类器的表现。

在本文中，我们特别研究了有限状态语言模型（FSLM）的可学性。我们首先从理论上量化了一个神经语言模型（Neural LM）在学习一个FSLM时所需的最小表示空间大小，具体来说，通过其条件分布对数值线性空间的大小来衡量。然后，我们通过实证测试FSLM的可学性，并发现其秩是RNN和Transformer学习这类语言的强预测因子，但其他FSLM属性对两者的影响模式不同。

预备知识

语言模型的定义

语言模型是分布在字符串上的概率分布。两个语言模型若对每个字符串的概率相同，则称它们是等价的。现代的语言模型通常定义为条件概率分布的乘积：

$p(y) = p(\text{EOS}|y) \prod_{t=1}^{|y|} p(y_t | y_{<t}),$

其中，EOS是一个特殊的结束符号。

神经语言模型

神经语言模型通过线性变换和softmax归一化的隐藏状态来定义条件分布。具体来说，给定字符串的表示$h_{t-1}$，条件分布定义为：

$p(y_t | y_{<t}) = \text{softmax}(E h_{t-1})_{y_t},$

其中，$E$是输出矩阵，$D$是隐藏状态和输出矩阵的大小。

有限状态语言模型

有限状态自动机（FSA）是定义语言模型的经典形式之一。一个概率有限状态自动机（PFSA）通过有限状态的条件下一个符号分布来定义字符串的概率。PFSA通过状态和符号的转移关系来移动，并通过乘积的转移权重来接受字符串的概率。

表示有限状态语言模型的神经语言模型

Rank-约束的PFSA

PFSA定义的条件分布可以是任意的符号分布，因此我们定义了一个参数化的PFSA：

$p(y | q) = \text{softmax}(T_{:, q})_y,$

其中，$T$是一个秩为$R$的矩阵。

神经语言模型的等价性

为了使神经语言模型与一个PFSA的分布匹配，需要满足以下条件：

$\text{softmax}(E h) = \text{softmax}(T_{:, q}),$

这意味着：

$E h = T_{:, q} + c_q,$

其中$c_q$是一个常数向量。为了匹配PFSA的条件分布，神经语言模型的隐藏状态大小必须至少为$R+1$。

实验设计与结果

实验设计

我们通过生成随机的PFSA来评估神经语言模型学习FSLM的能力，并测量它们之间的KL散度。我们生成了2100个随机PFSA，并训练了15000个Transformer和RNN语言模型。实验设置的详细信息如下：

生成随机PFSA

我们生成的PFSA具有不同的状态数$|Q|$和符号数$|Σ|$，并通过随机选取每个状态的转移来设置其转移函数。然后，通过SVD方法将转移矩阵$T$的秩降低到$R$，并将其归一化为转移概率。

数据生成

我们从每个PFSA生成20k个随机字符串，并分为训练集和测试集。为了适应Transformer的上下文长度限制，我们将字符串截断为256个符号。

模型训练

我们分别训练了具有不同隐藏状态大小$D$的RNN和Transformer模型。每个模型训练两个epoch，并使用标准的交叉熵损失函数。

结果分析

我们使用线性回归模型来量化PFSA属性对KL散度的影响。结果表明，PFSA的秩和字符串的期望长度是KL散度的重要预测因子。此外，RNN在学习FSLM方面表现优于Transformer。

讨论

理论结果的意义

我们的理论结果具体量化了学习有限状态语言模型所需的最小表示空间。这为理解神经语言模型的表示能力提供了重要的见解，特别是在模型的参数共享和表示能力方面。

实证结果的意义

我们的实证结果表明，PFSA的秩和字符串长度对学习的难度有显著影响。这与我们的理论结果一致，表明随着PFSA的秩的增加，神经语言模型需要更大的隐藏状态来准确建模其分布。

结论

通过本文的研究，我们提供了对神经语言模型学习有限状态语言模型能力的全面理解。我们的结果展示了使用形式语言理论来生成有意义的见解，并呼吁进一步的理论研究以更接近实际应用。

这篇文章通过理论分析和实证研究，探讨了神经语言模型在学习有限状态语言模型时的表现。希望这篇文章能够为您提供有价值的见解和参考。

引言