语言模型能学什么?从学习概率正则语言的角度看

大型语言模型(LLM)究竟能学到什么?这个问题看似简单,却暗藏玄机。从本质上来说,语言模型是定义在字符串上的概率分布。因此,我们可以将这个问题转化为一个更正式的问题:哪些字符串概率分布类别是神经语言模型可以学习的?

以往的研究主要集中在评估神经语言模型的理论极限,而我们则更关注实际的学习能力。与之前的工作不同,我们评估语言模型在其“主场”——学习概率语言——的表现,而不是将其作为形式语言的分类器。具体来说,我们研究了循环神经网络(RNN)和Transformer语言模型学习正则语言模型(RLM)的能力。

正则语言模型:学习的挑战

正则语言模型(RLM)可以用概率有限状态自动机(PFSA)来定义。PFSA 是一种概率化的有限状态自动机,它定义了字符串的概率。直观地讲,PFSA 通过有限个状态来总结字符串的前缀,类似于 RNN 的隐藏状态总结前缀 y1…yt。

学习 RLM 的挑战在于,神经语言模型需要能够准确地表示 PFSA 定义的概率分布。这涉及到两个关键问题:

  • 表示能力: 神经语言模型的隐藏状态需要足够大,才能表示 PFSA 的所有状态。
  • 学习能力: 神经语言模型需要能够从训练数据中学习 PFSA 的状态转移规则。

理论界限:隐藏状态大小与 PFSA 的秩

我们证明了一个关键的理论结果:对于一个秩为 R 的 PFSA,任何与其等价的神经语言模型的隐藏状态大小至少需要 R+1。

这个结果表明,PFSA 的秩是神经语言模型表示能力的一个重要限制因素。秩越大,表示 PFSA 所需的隐藏状态就越大。

实验验证:秩是学习能力的关键指标

为了验证理论结果,我们进行了大量的实验,训练了 15000 个 RNN 和 15000 个 Transformer 语言模型,并对它们学习 2100 个随机生成的 PFSA 的能力进行了评估。我们使用 KL 散度来衡量神经语言模型与 PFSA 之间的距离,并通过线性回归模型分析了各种 PFSA 属性对 KL 散度的影响。

实验结果表明,PFSA 的秩是 RNN 和 Transformer 语言模型学习能力的一个强有力预测指标。 秩越大,KL 散度就越大,表明学习难度越高。

RNN 和 Transformer 的差异

虽然 RNN 和 Transformer 都受到 PFSA 秩的影响,但它们在学习 RLM 时表现出一些差异。

  • RNN 对 PFSA 的熵更加敏感。 熵越大,RNN 的 KL 散度越小,表明学习难度越低。
  • Transformer 对字符串长度更加敏感。 字符串长度越长,Transformer 的 KL 散度越大,表明学习难度越高。

结论与展望

我们的研究表明,PFSA 的秩是神经语言模型学习 RLM 能力的一个关键指标。这为我们理解神经语言模型的学习能力提供了新的视角。

未来的研究方向包括:

  • 研究非确定性 PFSA 的学习能力。
  • 研究神经语言模型学习更复杂语言(例如上下文无关语言)的能力。
  • 探索更有效的训练方法,提高神经语言模型学习 RLM 的能力。

参考文献

注: 为了更好地理解本文,建议您参考论文原文。

0 0 投票数
Article Rating
订阅评论
提醒
0 评论
最多投票
最新 最旧
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x