语言模型能学什么？从学习概率正则语言的角度看

作者：

在

大型语言模型（LLM）究竟能学到什么？这个问题看似简单，却暗藏玄机。从本质上来说，语言模型是定义在字符串上的概率分布。因此，我们可以将这个问题转化为一个更正式的问题：哪些字符串概率分布类别是神经语言模型可以学习的？

以往的研究主要集中在评估神经语言模型的理论极限，而我们则更关注实际的学习能力。与之前的工作不同，我们评估语言模型在其“主场”——学习概率语言——的表现，而不是将其作为形式语言的分类器。具体来说，我们研究了循环神经网络（RNN）和Transformer语言模型学习正则语言模型（RLM）的能力。

正则语言模型：学习的挑战

正则语言模型（RLM）可以用概率有限状态自动机（PFSA）来定义。PFSA 是一种概率化的有限状态自动机，它定义了字符串的概率。直观地讲，PFSA 通过有限个状态来总结字符串的前缀，类似于 RNN 的隐藏状态总结前缀 y1…yt。

学习 RLM 的挑战在于，神经语言模型需要能够准确地表示 PFSA 定义的概率分布。这涉及到两个关键问题：

表示能力： 神经语言模型的隐藏状态需要足够大，才能表示 PFSA 的所有状态。
学习能力： 神经语言模型需要能够从训练数据中学习 PFSA 的状态转移规则。

理论界限：隐藏状态大小与 PFSA 的秩

我们证明了一个关键的理论结果：对于一个秩为 R 的 PFSA，任何与其等价的神经语言模型的隐藏状态大小至少需要 R+1。

这个结果表明，PFSA 的秩是神经语言模型表示能力的一个重要限制因素。秩越大，表示 PFSA 所需的隐藏状态就越大。

实验验证：秩是学习能力的关键指标

为了验证理论结果，我们进行了大量的实验，训练了 15000 个 RNN 和 15000 个 Transformer 语言模型，并对它们学习 2100 个随机生成的 PFSA 的能力进行了评估。我们使用 KL 散度来衡量神经语言模型与 PFSA 之间的距离，并通过线性回归模型分析了各种 PFSA 属性对 KL 散度的影响。

实验结果表明，PFSA 的秩是 RNN 和 Transformer 语言模型学习能力的一个强有力预测指标。 秩越大，KL 散度就越大，表明学习难度越高。

RNN 和 Transformer 的差异

虽然 RNN 和 Transformer 都受到 PFSA 秩的影响，但它们在学习 RLM 时表现出一些差异。

RNN 对 PFSA 的熵更加敏感。 熵越大，RNN 的 KL 散度越小，表明学习难度越低。
Transformer 对字符串长度更加敏感。 字符串长度越长，Transformer 的 KL 散度越大，表明学习难度越高。

结论与展望

我们的研究表明，PFSA 的秩是神经语言模型学习 RLM 能力的一个关键指标。这为我们理解神经语言模型的学习能力提供了新的视角。

未来的研究方向包括：

研究非确定性 PFSA 的学习能力。
研究神经语言模型学习更复杂语言（例如上下文无关语言）的能力。
探索更有效的训练方法，提高神经语言模型学习 RLM 的能力。

参考文献

论文原文

注：为了更好地理解本文，建议您参考论文原文。

AGI

发表回复取消回复

要发表评论，您必须先登录。