别再暴力Clip了！千问提出GatedNorm，统一视角揭秘残差流玄学-洪萨配资

在 Transformer 的训练过程中，只要稍微留心观察权重或激活值的分布，你就会发现残差流里的那个怪象：无论输入何种 token，某些固定维度的激活值始终显著高于其他维度。

与此同时，Attention Map 中的首个 token（通常是 <BOS>）也往往占据着极高的注意力权重（Attention Sink）。

在工程实践中，为了搞定数值稳定性或量化溢出，常见的处理方式往往是尝试截断（Clip）或通过正则化手段压制它们。

阿里 Qwen 团队发布的最新论文指出，这些异常值并非训练不稳定的产物，而是模型在归一化约束下自发演化出的重缩放机制。

这项工作不仅统一解释了 DeepSeek-V3、Qwen、GPT-OSS 等模型中普遍存在的 Sink 现象，更从数学底层证明了，强制去除这些异常值等同于破坏了模型的特征调节能力。

基于此，Qwen 提出了一种参数高效的架构改进——GatedNorm，用显式的门控机制替代了不稳定的异常值，从而在架构层面有效解决了低比特量化的精度难题。

论文标题：

A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training

论文链接：

https://arxiv.org/pdf/2601.22966

普遍存在的“异常值”

Qwen 团队对 Qwen3、GPT-OSS 进行了跨架构的对比分析，结果表明这种异常是 Transformer 的一种共性特征。

〓图1. Qwen3 与 GPT-OSS 的 Attention Sink 与 Residual Sink 可视化

如上图所示：

Attention Sink：首个 Token 吸收了绝大部分注意力 Logits，导致其他 Token 的权重被相对压制。

Residual Sink：在 Qwen3-235B 等模型中，特定维度（如第 1806、1423 维）的激活值呈现出输入无关的持续高值。

这种现象在 DeepSeek-V3 中尤为极端。

如下图统计所示，其残差流中的最大激活值达到了惊人的 264192.0 ，而常规维度的数值通常仅在量级。

〓图2. DeepSeek-V3 的 Attention Sink 与 Residual Sink 统计

在 FP16/BF16 训练中，这种数值尚可被容忍。

但在 INT4 或 FP4 量化场景下，巨大的动态范围会迫使量化参数为了迁就最大值而剧烈膨胀，导致承载核心语义的微小数值在量化过程中丢失精度。

统一视角：异常值驱动的重缩放

模型为何要花费巨大的能量去维护这些看似无用的异常值？Qwen 团队认为，这是模型为了对抗或利用归一化层特性而产生的一种适应性行为。

1. RMSNorm 的数学本质

回到 RMSNorm 的定义。在论文附录中，作者给出了归一化层的形式化表达：

当输入向量中存在一个极大的异常值时，分母上的范数会被该值主导而显著增大。

这实际上构成了一个全局缩放杠杆。模型只需推高某几个特定维度的数值，就能通过 RMSNorm 的除法性质，全局性地压缩其他所有特征维度的幅度。

论文进一步给出了严格的数学证明：LayerNorm 输出的特征范数上界，随着异常值幅度的增加而单调递减。

2. 统一视角

在此理论框架下，Attention Sink 和 Residual Sink 本质上是同构的：

Attention Sink：利用 Softmax 的归一化特性。通过推高首 Token 的 Logits（分母增大），压制其他 Token 的 Attention Weight，实现对无效信息的过滤。

Residual Sink：利用 RMSNorm 的归一化特性。通过推高特定维度的激活值（分母增大），调整层间残差连接的贡献比例。

模型并非出现错误，而是利用归一化层的数学特性，演化出了一种高效的全局缩放策略。

为何 Clipping 策略失效？

理解了这一机制，就能解释为何工程上常见的 Clipping 策略往往会导致模型崩溃。

如果我们强行截断残差流中的异常值（例如 Clip 到 1000），RMSNorm 的分母会瞬间变小，导致原本被压缩的特征幅度异常膨胀。

这破坏了模型内部已学习到的特征分布，进而引发训练发散。

论文中的消融实验进一步证实：即使移除了归一化层，模型性能也会显著下降。

这说明，“重缩放”并非归一化层的副作用，而是 Transformer 训练稳定的必要条件。

〓表1. 数据显示移除 Norm 或暴力 Clip 异常值（Row 12）均导致 Loss 不降反升，证明异常值是维持模型性能的必要条件。

这也从侧面解释了架构设计中的一个长期争论：为何 SwiGLU 通常优于 GLU？

SwiGLU 使用的 Swish 激活函数在正半轴无上界，允许模型轻松生成巨大的异常值来触发 Rescaling。而标准 GLU 使用 Sigmoid，值域受限于 (0, 1)，限制了这种自适应缩放的能力。

解决方案：GatedNorm

既然 Rescaling 是刚需，与其让模型依赖不稳定的异常值来实现，不如在架构层面提供显式的控制路径。

Qwen 团队提出了 GatedNorm。其核心思想是在 RMSNorm 后引入一个可学习的门控机制。

其中是 RMSNorm 的输出。和构成了轻量级的 Bottleneck 结构（Rank=16），参数量增加仅约 2%，计算开销极低。

引入 GatedNorm 后，模型拥有了合法的缩放手段，不再需要生成极端的异常值。

热力图对比显示，在 GatedNorm 模型中，残差流中的深色竖条纹几乎完全消失，特征分布回归平滑。

〓图3. Baseline、PreAffine 与 GatedNorm 的残差流热力图对比

更值得注意的是，当 GatedNorm 补齐了缩放能力后，GLU 的表现反超了 SwiGLU。

如下图所示，GLU + GA + GatedNorm 在 Loss 上达到最低，且不再产生剧烈的波动。这表明 SwiGLU 此前的优势很大程度上源于其更易于产生异常值以辅助缩放。

〓图4. SwiGLU 与 GLU 在训练过程中的 Loss 及异常值对比

关键应用

对于工业界而言，GatedNorm 的最大价值在于扫清了低比特量化的障碍。

由于 GatedNorm 从根源上消除了 Massive Activations，激活值的分布变得紧凑且消除了长尾效应，极大降低了量化难度。

在激进的 FP4（W4A4）测试中：

〓表2. 7B 和 24B MoE 模型在 FP4 量化下的性能对比

PreAffine（前沿对照组）：在 MGSM 等数学任务上，准确率下降显著（58.46 -> 49.58），说明仅靠参数吸收异常值无法解决量化损失。

GatedNorm：表现鲁棒。MGSM 仅下降不到 2 个点（55.47 -> 53.70），在 Code 任务上甚至略高于量化前的 Baseline。

这说明使用 GatedNorm 训练的模型，天然具备对 W4A4 推理架构的亲和性，无需复杂的后训练量化调整。

结语

这项研究揭示了 Transformer 架构中一个被长期忽视的机理：Attention Sink 和 Residual Sink 并非设计缺陷，而是模型在归一化约束下为实现“特征重缩放”而涌现的功能性特征。

下表总结了论文的核心洞察。与其在训练后尝试裁剪这些异常值，不如在设计阶段通过 GatedNorm 提供显式的缩放通道。

〓表2. 统一视角下 Attention Sink 与 Residual Sink 的对比总结

对于致力于小参数模型训练、MoE 架构优化，或对 W4A4 推理效率有明确需求的团队，GatedNorm 提供了一个理论完备且极其易用的架构升级方向。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

别再暴力Clip了！千问提出GatedNorm，统一视角揭秘残差流玄学

跨国企业在中国月报 | 联合利华、先正达、默克、奥乐齐、星巴克、达美乐、Visa等公司动态

90分钟上手，自己做一个入库出库系统

干掉前端！3分钟纯Java注解搭个管理系统

芯片团队里那些”不可或缺”的”平庸者”

当计算机专业站在十字路口：近屿智能看见了什么？

Qwen3-4B-Instruct企业应用：技术文档自动生成与代码辅助开发