news 2026/5/14 2:46:07

偏差-方差权衡及其如何塑造今天的 LLMs

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
偏差-方差权衡及其如何塑造今天的 LLMs

原文:towardsdatascience.com/the-bias-variance-tradeoff-and-how-it-shapes-the-llms-of-today-40e2c355f8a2

构建通用人工智能是否需要低诱导偏差?

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0fabb400fc5efbd89d9c7965df48f123.png

由 BoliviaInteligente 在 Unsplash 拍摄的照片

在今天的机器学习领域,我们发现我们自己被这些巨大的转换器模型如chatGPTBERT所包围,它们在几乎所有下游任务上都能提供无与伦比的性能,但前提是需要在上游任务上进行大量的预训练。是什么让转换器需要如此多的参数,因此需要如此多的训练数据才能使它们工作?

这是我通过探索 LLMs 与数据科学中偏差和方差基石主题之间的联系而想要深入探讨的问题。这将很有趣!


背景

首先,我们需要回到记忆中,为即将到来的内容定义一些基础。

方差

在数据科学中,方差几乎与过度拟合同义。该术语的核心语言选择是变化的概念。高方差模型是一个模型,当输入变量 X 发生微小变化时,其对目标变量 Y 的预测值变化很大。

所以在高方差模型中,X 的微小变化会导致 Y 的巨大响应(这就是为什么 Y 通常被称为响应变量)。在下面的方差经典示例中,你可以看到这一点,只需稍微改变 X,我们立即得到 Y 的不同值。

这也会在分类任务中体现出来,例如将“Michael 先生”分类为男性,但将“Miichael 先生”分类为女性,这是神经网络输出中的即时且显著的反应,模型仅因为添加了一个字母就改变了分类。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8a1c6d142c16b788199c7bea4c4930a0.png

作者提供的图像,展示了高方差模型作为一个生成复杂曲线的模型,该曲线过度拟合并偏离真实函数。

偏差

偏差与欠拟合密切相关,这个术语本身就有助于解释为什么在这个语境中使用它。一般来说,偏差意味着由于偏向某个方向而偏离真实值,在机器学习的术语中,高偏差模型是指对数据中某些特征有偏差的模型,而选择忽略其余部分,这通常是由于欠参数化造成的,即模型没有足够的复杂性来准确拟合数据,因此它构建了一个过于简化的视图。

在下面的图像中,你可以看到该模型没有充分考虑到数据的整体模式,而是天真地拟合到某些数据点或特征,并忽略了数据的抛物线特征或模式。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/fa3bd60742fcb70d538001de10de42ba.png

作者提供的图像,展示了一个忽略数据中明显模式的偏差大的模型。

归纳偏差

归纳偏差是对特定规则或函数的先验偏好,是偏差的特例。这可以来自对数据的先验知识,无论是使用启发式方法还是我们已知的自然法则。例如:如果我们想模拟放射性衰变,那么曲线需要是指数和光滑的,这是会影响我的模型及其架构的先验知识。

归纳偏差不是一件坏事,如果你对你的数据有先验知识,你可以用更少的数据,因此更少的参数,达到更好的结果。

具有高归纳偏差(即假设正确)的模型是一个参数较少,但给出完美结果的模型。

选择神经网络作为你的架构相当于选择一个显式的归纳偏差。

在 CNN 等模型的情况下,由于使用了过滤器(特征检测器)并在整个图像上滑动,其架构中存在隐含的偏差。这些检测诸如对象等事物的过滤器,无论它们在图像中的位置如何,都是应用先验知识的一个例子,即对象是相同的对象,无论其在图像中的位置如何,这是 CNN 的归纳偏差。

正式上,这被称为平移独立性假设,即在一个图像的一部分中使用的特征检测器,可能对检测图像其他部分中的相同特征是有用的。你可以立刻看到这个假设如何节省我们的参数,我们使用的是相同的过滤器,但将其在图像上滑动,而不是可能为图像的不同角落使用不同的过滤器来检测相同的特征。

CNNs 中内置的另一项归纳偏差是局部性假设,即只需在图像的小区域内寻找特征就足够了,单个特征检测器不需要覆盖整个图像,而只需覆盖其中的一小部分,你还可以看到这个假设如何加快 CNNs 的速度并节省大量参数。下面的图片展示了这些特征检测器如何在图像上滑动。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7606cbc0c6bfa91e6d433608767e6afd.png

图片由 Vincent Dumoulin, Francesco Visin 提供

这些假设源于我们对图像和计算机图形学的了解。从理论上讲,一个密集的前馈网络可以学习到相同的特征,但它需要显著更多的数据、时间和计算资源。我们还需要希望密集网络为我们做出这些假设,假设它正在正确地学习。

对于 RNNs,理论大致相同,这里的隐含假设是数据以时间序列的形式相互关联,以某个方向流动(从左到右或从右到左)。它们的门控机制以及处理序列的方式使得它们更偏向于短期记忆(RNNs 的主要缺点之一)


Transformer 及其低归纳偏差

希望在建立密集的背景知识之后,我们可以立即看到 Transformer 的不同之处,它们对数据的假设很少(也许这就是为什么它们对许多类型的任务都非常有用)

Transformer 架构对序列没有做出任何显著的假设。也就是说,Transformer 在任何时候都能很好地关注输入的所有部分。这种灵活性来自于自注意力,使得它们能够并行处理序列的所有部分,并捕获整个输入中的依赖关系。这种架构选择使得 Transformer 在没有关于局部性或序列依赖性的假设的情况下,能够有效地泛化到各种任务。

因此,我们可以立即看出,Transformer 没有像 CNNs 那样的局部性假设,也没有像 RNNs 那样的简单短期记忆偏差。这就是赋予 Transformer 所有这些力量的原因,它们具有低归纳偏差,不对数据进行任何假设,因此它们的学习和泛化能力很强,没有阻碍 Transformer 在相关过程中深入理解数据的假设。

这里的问题很明显,变压器很大,它们拥有难以想象的参数数量,部分原因是缺乏假设和归纳偏差,并且直接意味着需要大量的数据进行训练,在训练过程中,它们完美地学习输入数据的分布(由于低偏差导致高方差,存在过拟合的趋势)。这就是为什么一些大型语言模型(LLMs)似乎只是鹦鹉学舌,重复它们在训练期间看到的内容。图像展示了自注意力机制的例子,说明了变压器在处理每个单词时如何考虑句子中的所有其他单词,以及生成新单词时的情况。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0ebb103b77b1ef0c67741ecd643894b0.png

图片由作者提供

变压器真的是人工智能的最终前沿吗?还是存在更聪明、更好的解决方案,它们具有更高的归纳偏差,正等待被探索?这是一个开放式的问题,没有直接的答案。也许存在对低归纳偏差的隐含需求,以便拥有擅长多项任务的通用人工智能,或者也许存在一条我们可以采取的捷径,这样就不会妨碍模型泛化的效果。

我将把这个留给读者自己思考。


结论

在这篇文章中,我们从基础开始探讨了偏差理论,解释了作为架构的变压器是如何作为一个对数据及其处理方式假设很少的工具,这就是它们相对于卷积神经网络和循环神经网络的优势所在,但这也是其最大缺点——大小和复杂性的原因。希望这篇文章能够以新颖的视角阐明机器学习中的深层次主题。

喜欢这篇文章吗?

通过这个链接购买我一杯咖啡:buymeacoffee.com/zakharymg

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/14 2:43:06

Hermes 新增模型完整配置 + 多模型切换

适用版本:Hermes Agent v0.13.0 更新日期:2026年5月13日 适用场景:Windows WSL Ubuntu 26.04 环境一、新增 LongCat 模型完整命令流程 按顺序执行以下命令,1 分钟完成配置。 1. 编辑密钥文件(最关键!变量名…

作者头像 李华
网站建设 2026/5/14 2:37:11

主从延迟的5大“元凶”+3个排查命令,别再让从库拖后腿

​📌 关键词​:主从延迟、MySQL​优化、数据库避坑 👋大家好呀!我是数据库小学妹 上一篇我们讲了读写分离和查询路由,把读流量分流到从库,系统吞吐量翻倍。但有一个问题很快就会出现: 刚在主库插…

作者头像 李华
网站建设 2026/5/14 2:37:08

基于MCP协议构建PDF解析服务器,赋能AI开发工作流

1. 项目概述:为AI开发环境注入PDF解析能力如果你和我一样,日常开发重度依赖Cursor这类AI驱动的IDE,那你肯定遇到过这样的场景:手头有一份技术规格书、一份API文档或者一篇研究论文是PDF格式的,你想让AI助手帮你分析、总…

作者头像 李华
网站建设 2026/5/14 2:31:31

记一次登录框0-1渗透突破

记一次登录框0-1渗透突破 信息收集 and 前台功能 开局登录框根据域名的#符号与Wappalyzer插件得出这是使用Vue.js站点并且也有经典的Webpack打包器,那么前期可以除去功能点可以选择的渗透思路有如下,基本是逐一尝试,只要达到目的就可以停止,主线任务进入管理员后台,支线任务信…

作者头像 李华
网站建设 2026/5/14 2:30:09

铝板椭圆成像无线传输损伤检测【附仿真】

✨ 长期致力于兰姆波、虚拟时间反转、损伤成像、压电陶瓷研究工作,擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,点击《获取方式》 (1)铝板Lamb波频散特性与压电陶瓷PZT优化&#…

作者头像 李华
网站建设 2026/5/14 2:29:08

免缝合LED发光腕带制作:用导电布胶带轻松入门电子织物

1. 项目概述:当传统手工艺遇上现代电子如果你曾经对电子织物(E-textiles)感兴趣,但又觉得穿针引线、学习编程或者焊接电路板这些步骤过于繁琐,那么这个“免缝合LED发光腕带”项目就是为你量身定做的入门之选。它完美地…

作者头像 李华