偏差-方差权衡及其如何塑造今天的 LLMs-洪萨配资

原文：towardsdatascience.com/the-bias-variance-tradeoff-and-how-it-shapes-the-llms-of-today-40e2c355f8a2

构建通用人工智能是否需要低诱导偏差？

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0fabb400fc5efbd89d9c7965df48f123.png

由 BoliviaInteligente 在 Unsplash 拍摄的照片

在今天的机器学习领域，我们发现我们自己被这些巨大的转换器模型如chatGPT和BERT所包围，它们在几乎所有下游任务上都能提供无与伦比的性能，但前提是需要在上游任务上进行大量的预训练。是什么让转换器需要如此多的参数，因此需要如此多的训练数据才能使它们工作？

这是我通过探索 LLMs 与数据科学中偏差和方差基石主题之间的联系而想要深入探讨的问题。这将很有趣！

背景

首先，我们需要回到记忆中，为即将到来的内容定义一些基础。

方差

在数据科学中，方差几乎与过度拟合同义。该术语的核心语言选择是变化的概念。高方差模型是一个模型，当输入变量 X 发生微小变化时，其对目标变量 Y 的预测值变化很大。

所以在高方差模型中，X 的微小变化会导致 Y 的巨大响应（这就是为什么 Y 通常被称为响应变量）。在下面的方差经典示例中，你可以看到这一点，只需稍微改变 X，我们立即得到 Y 的不同值。

这也会在分类任务中体现出来，例如将“Michael 先生”分类为男性，但将“Miichael 先生”分类为女性，这是神经网络输出中的即时且显著的反应，模型仅因为添加了一个字母就改变了分类。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8a1c6d142c16b788199c7bea4c4930a0.png

作者提供的图像，展示了高方差模型作为一个生成复杂曲线的模型，该曲线过度拟合并偏离真实函数。

偏差

偏差与欠拟合密切相关，这个术语本身就有助于解释为什么在这个语境中使用它。一般来说，偏差意味着由于偏向某个方向而偏离真实值，在机器学习的术语中，高偏差模型是指对数据中某些特征有偏差的模型，而选择忽略其余部分，这通常是由于欠参数化造成的，即模型没有足够的复杂性来准确拟合数据，因此它构建了一个过于简化的视图。

在下面的图像中，你可以看到该模型没有充分考虑到数据的整体模式，而是天真地拟合到某些数据点或特征，并忽略了数据的抛物线特征或模式。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/fa3bd60742fcb70d538001de10de42ba.png

作者提供的图像，展示了一个忽略数据中明显模式的偏差大的模型。

归纳偏差

归纳偏差是对特定规则或函数的先验偏好，是偏差的特例。这可以来自对数据的先验知识，无论是使用启发式方法还是我们已知的自然法则。例如：如果我们想模拟放射性衰变，那么曲线需要是指数和光滑的，这是会影响我的模型及其架构的先验知识。

归纳偏差不是一件坏事，如果你对你的数据有先验知识，你可以用更少的数据，因此更少的参数，达到更好的结果。

具有高归纳偏差（即假设正确）的模型是一个参数较少，但给出完美结果的模型。

选择神经网络作为你的架构相当于选择一个显式的归纳偏差。

在 CNN 等模型的情况下，由于使用了过滤器（特征检测器）并在整个图像上滑动，其架构中存在隐含的偏差。这些检测诸如对象等事物的过滤器，无论它们在图像中的位置如何，都是应用先验知识的一个例子，即对象是相同的对象，无论其在图像中的位置如何，这是 CNN 的归纳偏差。

正式上，这被称为平移独立性假设，即在一个图像的一部分中使用的特征检测器，可能对检测图像其他部分中的相同特征是有用的。你可以立刻看到这个假设如何节省我们的参数，我们使用的是相同的过滤器，但将其在图像上滑动，而不是可能为图像的不同角落使用不同的过滤器来检测相同的特征。

CNNs 中内置的另一项归纳偏差是局部性假设，即只需在图像的小区域内寻找特征就足够了，单个特征检测器不需要覆盖整个图像，而只需覆盖其中的一小部分，你还可以看到这个假设如何加快 CNNs 的速度并节省大量参数。下面的图片展示了这些特征检测器如何在图像上滑动。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7606cbc0c6bfa91e6d433608767e6afd.png

图片由 Vincent Dumoulin, Francesco Visin 提供

这些假设源于我们对图像和计算机图形学的了解。从理论上讲，一个密集的前馈网络可以学习到相同的特征，但它需要显著更多的数据、时间和计算资源。我们还需要希望密集网络为我们做出这些假设，假设它正在正确地学习。

对于 RNNs，理论大致相同，这里的隐含假设是数据以时间序列的形式相互关联，以某个方向流动（从左到右或从右到左）。它们的门控机制以及处理序列的方式使得它们更偏向于短期记忆（RNNs 的主要缺点之一）

Transformer 及其低归纳偏差

希望在建立密集的背景知识之后，我们可以立即看到 Transformer 的不同之处，它们对数据的假设很少（也许这就是为什么它们对许多类型的任务都非常有用）

Transformer 架构对序列没有做出任何显著的假设。也就是说，Transformer 在任何时候都能很好地关注输入的所有部分。这种灵活性来自于自注意力，使得它们能够并行处理序列的所有部分，并捕获整个输入中的依赖关系。这种架构选择使得 Transformer 在没有关于局部性或序列依赖性的假设的情况下，能够有效地泛化到各种任务。

因此，我们可以立即看出，Transformer 没有像 CNNs 那样的局部性假设，也没有像 RNNs 那样的简单短期记忆偏差。这就是赋予 Transformer 所有这些力量的原因，它们具有低归纳偏差，不对数据进行任何假设，因此它们的学习和泛化能力很强，没有阻碍 Transformer 在相关过程中深入理解数据的假设。

这里的问题很明显，变压器很大，它们拥有难以想象的参数数量，部分原因是缺乏假设和归纳偏差，并且直接意味着需要大量的数据进行训练，在训练过程中，它们完美地学习输入数据的分布（由于低偏差导致高方差，存在过拟合的趋势）。这就是为什么一些大型语言模型（LLMs）似乎只是鹦鹉学舌，重复它们在训练期间看到的内容。图像展示了自注意力机制的例子，说明了变压器在处理每个单词时如何考虑句子中的所有其他单词，以及生成新单词时的情况。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0ebb103b77b1ef0c67741ecd643894b0.png

图片由作者提供

变压器真的是人工智能的最终前沿吗？还是存在更聪明、更好的解决方案，它们具有更高的归纳偏差，正等待被探索？这是一个开放式的问题，没有直接的答案。也许存在对低归纳偏差的隐含需求，以便拥有擅长多项任务的通用人工智能，或者也许存在一条我们可以采取的捷径，这样就不会妨碍模型泛化的效果。

我将把这个留给读者自己思考。