AAAI 2026 Oral | 主动注入标签噪声，为何成为模型泛化的“密钥”？两层线性网络的动力学分析-洪萨配资

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

在AI模型训练的传统认知里，标签噪声向来是避之不及的“麻烦事”——纯净的数据、精准的标签，才被视作提升模型性能的关键。然而，近年来有不少研究都关注到一个反直觉的现象：在训练过程中给数据标签加噪声不仅不会拖垮模型，反而能显著提升泛化能力。

本项研究旨在探究这一反常现象背后的理论机理。为了在理论可解性和结构典型性取得平衡，在本研究中，作者聚焦于两层线性网络，采用Label Noise SGD算法来进行迭代，用严谨的理论与实验，揭开了标签噪声背后的学习动力学奥秘。

作者：

张桐铖上海交通大学本科生

周展鹏上海交通大学博士研究生

论文链接：

https://openreview.net/pdf?id=KfsMlrl81a

代码仓库：

https://github.com/a-usually/Label-Noise-SGD

核心方法：

Label Noise SGD的“反常识”魔力

什么是Label Noise SGD优化算法？Label Noise SGD方法并不复杂，它融合了两项关键技术：一项是大家熟知的随机梯度下降法（SGD），通过随机抽取数据子集计算梯度来优化模型；另一项则是主动给训练标签“加噪声”——也就是在每一步以一定概率（标签翻转概率τ），将部分标签的类别随机替换为其他类别。

此前已有研究团队发现这种方法可能提升泛化能力，为了验证这一猜想，研究选用ResNet-18模型在CIFAR-10数据集上展开实验，设置了0.05、0.1、0.2三种不同强度的标签噪声，结果令人惊喜：在所有噪声强度下，模型在测试集上的Loss持续降低，测试集上的准确率平均提升了1.5%。

这种“以噪提纯”的反常识现象，让研究团队决心深挖其背后的理论逻辑，最终构建出一套两阶段的理论证明体系：

第一阶段：模型权重范数逐步衰减，网络逐渐脱离“惰性训练”状态，进入“丰富训练”状态；

第二阶段：模型权重与优化目标向量的对齐度持续提升，最终实现模型收敛。

理论揭秘：两层网络的“双阶段进化”之路

研究以两层线性网络为载体，采用NTK初始化策略，在过参数化网络、小学习率、适当输入量级的设定下，完整呈现了模型从“惰性学习”到“丰富学习”的进化路径。

第一阶段：震荡驱动，跳出“惰性”舒适区

“惰性学习状态（Lazy Regime）”是许多模型训练中难以突破的瓶颈——简单来说，就是网络权重在训练过程中变化甚微，始终停留在初始状态附近，难以挖掘数据中的深层规律。此前研究证实，标准梯度下降法会让网络一直困在这个“舒适区”里。

而Label Noise SGD的神奇之处，就在于能打破这种僵局。研究发现了一个关键机制：标签噪声会引发第二层神经元的持续震荡，这个震荡的现象会驱使第一层神经元的权重逐步衰减，进而脱离惰性训练状态。由于第二层权重初始值较小，第一层权重的更新主要受这种震荡主导，且更新量大概率呈现负值，导致第一层权重范数逐步衰减。

经过约1/η²数量级的迭代后，所有神经元都会以高概率跳出惰性学习状态，进入更具探索性的“丰富学习状态（Rich Regime）”。为了验证这一机制，研究团队还设计了一组对照实验：以5000步为周期，交替添加和移除标签噪声。结果显示，噪声添加时，低层神经元范数持续衰减；噪声移除时，衰减立即停止。与此同时，第二层神经元始终在零值附近震荡。这一对照实验清晰表明，标签噪声正是驱动网络从“lazy”向“rich”蜕变的核心动力。

第二阶段：对齐收敛，炼就“稀疏优质解”

当所有神经元的权重范数减小到一定程度，模型就进入了第二阶段，此时的状态类似于“小初始化”模型，具备了快速收敛的基础。在这一阶段，神经元权重会快速向优化目标的方向对齐。完成对齐后，模型会稳步收敛，最终形成一个稀疏解。具体而言，那些权重范数始终保持极小的神经元，相当于“退出”了训练过程，不再发挥作用；而真正有用的神经元则专注于捕捉数据本质规律。这种稀疏特性，正是模型泛化能力大幅提升的关键原因。

合成实验的图表清晰地展现了这一过程：部分神经元的范数先降后升，逐步成为“核心力量”；另一部分则持续维持低值，最终被自然筛选淘汰。

拓展验证：跨优化器的“普适性”

既然Label Noise SGD的机制如此有效，它能否推广到其他优化器上？研究团队将目光投向了Sharpness-Aware Minimization（SAM，锐度感知最小化）优化器——这种优化器的核心目标是寻找更平坦的极小值点，让模型更稳健。

实验结果给出了肯定答案：在不同设定下，SAM展现出了与Label Noise SGD高度相似的双阶段变化特征。即使是在真实场景中，用宽残差网络在CIFAR-10数据集子集上训练时，添加标签噪声后，模型的训练轨迹也与未加噪声时（接近线性模型的轨迹）截然不同，呈现出丰富学习状态的典型特征，进一步印证了这一机制的普适性。

未来方向：还有哪些待解的“优化谜题”

未来，研究团队计划将理论框架进一步拓展：一方面引入非线性激活函数，探究非线性网络中这种动力学机制是否依然成立；另一方面，将研究场景从回归任务延伸到更广泛的分类任务中，而这也是当前领域内仍为解决的开放问题。

从“避之不及”到“主动利用”，标签噪声的角色转变背后，是对深度学习动力学本质的深度洞察。这项研究不仅为噪声鲁棒性学习奠定了理论基础，更为实际场景中提升模型泛化能力提供了新颖而简洁的思路。

本期文章由支昕整理

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾800场活动，超1000万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言