分类：未分类

语言模型能学什么？从学习概率正则语言的角度看
大型语言模型（LLM）究竟能学到什么？这个问题看似简单，却暗藏玄机。从本质上来说，语言模型是定义在字符串上的概率分布。因此，我们可以将这个问题转化为一个更正式的问题：哪些字符串概率分布类别是神经语言模型可以学习的？

以往的研究主要集中在评估神经语言模型的理论极限，而我们则更关注实际的学习能力。与之前的工作不同，我们评估语言模型在其“主场”——学习概率语言——的表现，而不是将其作为形式语言的分类器。具体来说，我们研究了循环神经网络（RNN）和Transformer语言模型学习正则语言模型（RLM）的能力。

正则语言模型：学习的挑战

正则语言模型（RLM）可以用概率有限状态自动机（PFSA）来定义。PFSA 是一种概率化的有限状态自动机，它定义了字符串的概率。直观地讲，PFSA 通过有限个状态来总结字符串的前缀，类似于 RNN 的隐藏状态总结前缀 y1…yt。

学习 RLM 的挑战在于，神经语言模型需要能够准确地表示 PFSA 定义的概率分布。这涉及到两个关键问题：
- 表示能力： 神经语言模型的隐藏状态需要足够大，才能表示 PFSA 的所有状态。
- 学习能力： 神经语言模型需要能够从训练数据中学习 PFSA 的状态转移规则。
理论界限：隐藏状态大小与 PFSA 的秩

我们证明了一个关键的理论结果：对于一个秩为 R 的 PFSA，任何与其等价的神经语言模型的隐藏状态大小至少需要 R+1。

这个结果表明，PFSA 的秩是神经语言模型表示能力的一个重要限制因素。秩越大，表示 PFSA 所需的隐藏状态就越大。

实验验证：秩是学习能力的关键指标

为了验证理论结果，我们进行了大量的实验，训练了 15000 个 RNN 和 15000 个 Transformer 语言模型，并对它们学习 2100 个随机生成的 PFSA 的能力进行了评估。我们使用 KL 散度来衡量神经语言模型与 PFSA 之间的距离，并通过线性回归模型分析了各种 PFSA 属性对 KL 散度的影响。

实验结果表明，PFSA 的秩是 RNN 和 Transformer 语言模型学习能力的一个强有力预测指标。 秩越大，KL 散度就越大，表明学习难度越高。

RNN 和 Transformer 的差异

虽然 RNN 和 Transformer 都受到 PFSA 秩的影响，但它们在学习 RLM 时表现出一些差异。
- RNN 对 PFSA 的熵更加敏感。 熵越大，RNN 的 KL 散度越小，表明学习难度越低。
- Transformer 对字符串长度更加敏感。 字符串长度越长，Transformer 的 KL 散度越大，表明学习难度越高。
结论与展望

我们的研究表明，PFSA 的秩是神经语言模型学习 RLM 能力的一个关键指标。这为我们理解神经语言模型的学习能力提供了新的视角。

未来的研究方向包括：
- 研究非确定性 PFSA 的学习能力。
- 研究神经语言模型学习更复杂语言（例如上下文无关语言）的能力。
- 探索更有效的训练方法，提高神经语言模型学习 RLM 的能力。
参考文献
- 论文原文
注：为了更好地理解本文，建议您参考论文原文。
2024 年 6 月 9 日
探索语言模型的易学性：从概率有限状态语言的学习视角

引言

大型语言模型究竟能学到什么？这是一个不断被研究的问题。语言模型（LM）本质上是分布在字符串上的概率分布。因此，理解它们的学习能力可以转化为研究它们能学习哪些字符串分布的能力。尽管之前的研究主要集中在理论上的界限，但我们希望从实证角度来理解它们的可学性。不同于先前的研究，我们评估语言模型在其“主场”——学习字符串上的概率分布——而不是作为形式语言的分类器的表现。

在本文中，我们特别研究了有限状态语言模型（FSLM）的可学性。我们首先从理论上量化了一个神经语言模型（Neural LM）在学习一个FSLM时所需的最小表示空间大小，具体来说，通过其条件分布对数值线性空间的大小来衡量。然后，我们通过实证测试FSLM的可学性，并发现其秩是RNN和Transformer学习这类语言的强预测因子，但其他FSLM属性对两者的影响模式不同。

预备知识

语言模型的定义

语言模型是分布在字符串上的概率分布。两个语言模型若对每个字符串的概率相同，则称它们是等价的。现代的语言模型通常定义为条件概率分布的乘积：

$p(y) = p(\text{EOS}|y) \prod_{t=1}^{|y|} p(y_t | y_{<t}),$

其中，EOS是一个特殊的结束符号。

神经语言模型

神经语言模型通过线性变换和softmax归一化的隐藏状态来定义条件分布。具体来说，给定字符串的表示 $h_{t-1}$ ，条件分布定义为：

$p(y_t | y_{<t}) = \text{softmax}(E h_{t-1})_{y_t},$

其中， $E$ 是输出矩阵， $D$ 是隐藏状态和输出矩阵的大小。

有限状态语言模型

有限状态自动机（FSA）是定义语言模型的经典形式之一。一个概率有限状态自动机（PFSA）通过有限状态的条件下一个符号分布来定义字符串的概率。PFSA通过状态和符号的转移关系来移动，并通过乘积的转移权重来接受字符串的概率。

表示有限状态语言模型的神经语言模型

Rank-约束的PFSA

PFSA定义的条件分布可以是任意的符号分布，因此我们定义了一个参数化的PFSA：

$p(y | q) = \text{softmax}(T_{:, q})_y,$

其中， $T$ 是一个秩为 $R$ 的矩阵。

神经语言模型的等价性

为了使神经语言模型与一个PFSA的分布匹配，需要满足以下条件：

$\text{softmax}(E h) = \text{softmax}(T_{:, q}),$

这意味着：

$E h = T_{:, q} + c_q,$

其中 $c_q$ 是一个常数向量。为了匹配PFSA的条件分布，神经语言模型的隐藏状态大小必须至少为 $R+1$ 。

实验设计与结果

实验设计

我们通过生成随机的PFSA来评估神经语言模型学习FSLM的能力，并测量它们之间的KL散度。我们生成了2100个随机PFSA，并训练了15000个Transformer和RNN语言模型。实验设置的详细信息如下：

生成随机PFSA

我们生成的PFSA具有不同的状态数 $|Q|$ 和符号数 $|Σ|$ ，并通过随机选取每个状态的转移来设置其转移函数。然后，通过SVD方法将转移矩阵 $T$ 的秩降低到 $R$ ，并将其归一化为转移概率。

数据生成

我们从每个PFSA生成20k个随机字符串，并分为训练集和测试集。为了适应Transformer的上下文长度限制，我们将字符串截断为256个符号。

模型训练

我们分别训练了具有不同隐藏状态大小 $D$ 的RNN和Transformer模型。每个模型训练两个epoch，并使用标准的交叉熵损失函数。

结果分析

我们使用线性回归模型来量化PFSA属性对KL散度的影响。结果表明，PFSA的秩和字符串的期望长度是KL散度的重要预测因子。此外，RNN在学习FSLM方面表现优于Transformer。

讨论

理论结果的意义

我们的理论结果具体量化了学习有限状态语言模型所需的最小表示空间。这为理解神经语言模型的表示能力提供了重要的见解，特别是在模型的参数共享和表示能力方面。

实证结果的意义

我们的实证结果表明，PFSA的秩和字符串长度对学习的难度有显著影响。这与我们的理论结果一致，表明随着PFSA的秩的增加，神经语言模型需要更大的隐藏状态来准确建模其分布。

结论

通过本文的研究，我们提供了对神经语言模型学习有限状态语言模型能力的全面理解。我们的结果展示了使用形式语言理论来生成有意义的见解，并呼吁进一步的理论研究以更接近实际应用。

这篇文章通过理论分析和实证研究，探讨了神经语言模型在学习有限状态语言模型时的表现。希望这篇文章能够为您提供有价值的见解和参考。

2024 年 6 月 9 日