news 2026/4/27 22:15:42

面试-RMSNorm和LayerNorm的区别

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面试-RMSNorm和LayerNorm的区别

1 LayerNorm

背景:

在神经网络中,每一层输出都将作为下一层的输入。

  • 问题:在训练过程中,前一层参数的微小更新,所带来的输出会导致后一层输入的分布发生剧烈变化。这就是层与层之间的动态失调。俗称内部协变量偏移(Internal Covariate Shift)
  • 现象:比如,第一层参数稍微改了一点点(比如权重从0.10.10.1变成0.110.110.11)。经过非线性激活函数放大,第二层的输入分布就会发生剧烈抖动。经过非线性激活函数放大,第二层的输入分布就会发生剧烈抖动。

梯度消失与爆炸: 如果没有归一化,神经元的输出可能非常大。如果你使用的是 tanh 或 sigmoid 激活函数,输入太大就会进入“饱和区”,梯度几乎为 0,模型就“僵死”了。LayerNorm 把数值强行拉回均值 0、方差 1 的范围,确保它们正好落在激活函数最敏感(斜率大)的区域。

例子:
假设你正在训练一个深层网络,其中一层有一个神经元,它使用的是 Sigmoid 激活函数。

  • Sigmoid 公式:f(x)=11+e−xf(x) = \frac{1}{1 + e^{-x}}f(x)=1+ex1
  • 求导:f(x)(1-f(x))
  • 它的特性:当xxx000附近时,斜率(梯度)最大(约0.250.250.25);当x>5x > 5x>5x<−5x < -5x<5时,曲线变得非常平坦,斜率接近 0。

情况 A:没有归一化(进入饱和区)
假设由于前几层的权重初始化得比较大,或者没有控制好,传到这一层的输入向量为:
x=[10.0,12.0,11.0,9.0]x = [10.0, 12.0, 11.0, 9.0]x=[10.0,12.0,11.0,9.0]

  • 输出:f(10.0)≈0.99995f(10.0) \approx 0.99995f(10.0)0.99995f(12.0)≈0.99999f(12.0) \approx 0.99999f(12.0)0.99999你会发现,无论输入是 10 还是 12,输出几乎全是 1。
  • 梯度计算:Sigmoid 的导数是f(x)(1−f(x))f(x)(1 - f(x))f(x)(1f(x))。对于x=10x=10x=10,梯度≈0.99995×(1−0.99995)=0.000049\approx 0.99995 \times (1 - 0.99995) = 0.0000490.99995×(10.99995)=0.000049
  • 后果: 这个梯度太小了!在反向传播时,这个微弱的信号传到前一层几乎就消失了。模型“僵死”了,因为它觉得自己已经做得很好了(输出都是 1),或者它根本不知道该往哪改。
公式:

为了解决内部协变量偏移这一问题,LayerNorm 通过将每一层神经元的输出强制转化为“均值为 0、方差为 1”的标准分布,使得不管前面的层怎么折腾,传给后层的信号始终是平稳、可预测的。

  • 如果没有 LN:数值可能非常大(如 100)或非常小(如 0.001)。如果后面接的是 Sigmoid 或 Tanh 激活函数,这些数值会落入极其平坦的“饱和区”,导致梯度几乎为 0。

  • 有了 LN:它把数值强行拽回到 0 附近。

  • 结果:激活函数的斜率在这里最大,梯度能够顺畅回传,防止了模型因“梯度消失”而彻底僵死。公式如下:

  • xix_ixi:输入向量xxx中的第iii个元素(特征)。

  • iii:特征的索引,取值范围是[1,d][1, d][1,d]。注意,LayerNorm 是在特征维度(最后一个维度)上做归一化,而不是在 Batch 维度。

  • nnn(或ddd):向量的长度(隐藏层维度)。

  • σ2+ϵ\sqrt{\sigma^2 + \epsilon}<

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 9:58:49

cdn的流量包是什么作用

CDN流量包是云计算场景中针对CDN&#xff08;内容分发网络&#xff09;服务的预付费流量资源套餐&#xff0c;核心作用是抵扣CDN服务运行过程中产生的实际出网流量&#xff0c;替代按流量计费的后付费模式&#xff0c;帮助用户更灵活地管理成本、保障服务稳定性。其核心价值首先…

作者头像 李华
网站建设 2026/4/27 16:16:17

使用VLLM+Deepseek+Milvus构建本地向量库

Milvus是一个开源、专门构建的分布式向量数据库&#xff0c;用于为生成式人工智能&#xff08;GenAI&#xff09;工作负载存储、索引和搜索向量。它能够执行混合搜索、 元数据过滤、重排序并高效处理数万亿向量&#xff0c;这使得 Milvus 成为人工智能和机器学习工作负载的首选…

作者头像 李华
网站建设 2026/4/19 14:26:38

AI原生应用开发:用户画像特征工程的10个实用技巧

AI原生应用开发:用户画像特征工程的10个实用技巧 关键词:用户画像、特征工程、AI原生应用、数据融合、特征分箱、时效性管理、特征评估、高维稀疏、缺失值处理、业务对齐 摘要:在AI原生应用中,用户画像是实现个性化服务的“数字指纹”,而特征工程则是构建这枚指纹的“雕刻…

作者头像 李华
网站建设 2026/4/23 8:53:38

Java毕设项目推荐-基于springboot的台球开台运营管理系统基于springboot的台球厅管理球房会员服务与桌台调度系统【附源码+文档,调试定制服务】

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/4/27 7:55:10

2026实测:6款降AI率工具深度评测,用免费工具实现论文AI率直降

即将毕业的大学生们&#xff01;是否也在深夜对着电脑屏幕发呆&#xff0c;你的论文初稿明明字字心血&#xff0c;却被冰冷的AI检测系统无情标红&#xff0c;却被系统判定AI率超标&#xff0c;这感觉太憋屈了。 更绝望的是&#xff0c;为了“洗清嫌疑”&#xff0c;你开始手动…

作者头像 李华