news 2026/3/30 13:47:46

AAAI 2026 Oral | 主动注入标签噪声,为何成为模型泛化的“密钥”?两层线性网络的动力学分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AAAI 2026 Oral | 主动注入标签噪声,为何成为模型泛化的“密钥”?两层线性网络的动力学分析

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

在AI模型训练的传统认知里,标签噪声向来是避之不及的“麻烦事”——纯净的数据、精准的标签,才被视作提升模型性能的关键。然而,近年来有不少研究都关注到一个反直觉的现象:在训练过程中给数据标签加噪声不仅不会拖垮模型,反而能显著提升泛化能力。

本项研究旨在探究这一反常现象背后的理论机理。为了在理论可解性和结构典型性取得平衡,在本研究中,作者聚焦于两层线性网络,采用Label Noise SGD算法来进行迭代,用严谨的理论与实验,揭开了标签噪声背后的学习动力学奥秘。

作者:

张桐铖 上海交通大学本科生

周展鹏 上海交通大学博士研究生

论文链接:

https://openreview.net/pdf?id=KfsMlrl81a

代码仓库:

https://github.com/a-usually/Label-Noise-SGD

1

核心方法:

Label Noise SGD的“反常识”魔力

什么是Label Noise SGD优化算法?Label Noise SGD方法并不复杂,它融合了两项关键技术:一项是大家熟知的随机梯度下降法(SGD),通过随机抽取数据子集计算梯度来优化模型;另一项则是主动给训练标签“加噪声”——也就是在每一步以一定概率(标签翻转概率τ),将部分标签的类别随机替换为其他类别。

此前已有研究团队发现这种方法可能提升泛化能力,为了验证这一猜想,研究选用ResNet-18模型在CIFAR-10数据集上展开实验,设置了0.05、0.1、0.2三种不同强度的标签噪声,结果令人惊喜:在所有噪声强度下,模型在测试集上的Loss持续降低,测试集上的准确率平均提升了1.5%。

这种“以噪提纯”的反常识现象,让研究团队决心深挖其背后的理论逻辑,最终构建出一套两阶段的理论证明体系:

第一阶段:模型权重范数逐步衰减,网络逐渐脱离“惰性训练”状态,进入“丰富训练”状态;

第二阶段:模型权重与优化目标向量的对齐度持续提升,最终实现模型收敛。

2

理论揭秘:两层网络的“双阶段进化”之路

研究以两层线性网络为载体,采用NTK初始化策略,在过参数化网络、小学习率、适当输入量级的设定下,完整呈现了模型从“惰性学习”到“丰富学习”的进化路径。

第一阶段:震荡驱动,跳出“惰性”舒适区

“惰性学习状态(Lazy Regime)”是许多模型训练中难以突破的瓶颈——简单来说,就是网络权重在训练过程中变化甚微,始终停留在初始状态附近,难以挖掘数据中的深层规律。此前研究证实,标准梯度下降法会让网络一直困在这个“舒适区”里。

而Label Noise SGD的神奇之处,就在于能打破这种僵局。研究发现了一个关键机制:标签噪声会引发第二层神经元的持续震荡,这个震荡的现象会驱使第一层神经元的权重逐步衰减,进而脱离惰性训练状态。由于第二层权重初始值较小,第一层权重的更新主要受这种震荡主导,且更新量大概率呈现负值,导致第一层权重范数逐步衰减。

经过约1/η²数量级的迭代后,所有神经元都会以高概率跳出惰性学习状态,进入更具探索性的“丰富学习状态(Rich Regime)”。为了验证这一机制,研究团队还设计了一组对照实验:以5000步为周期,交替添加和移除标签噪声。结果显示,噪声添加时,低层神经元范数持续衰减;噪声移除时,衰减立即停止。与此同时,第二层神经元始终在零值附近震荡。这一对照实验清晰表明,标签噪声正是驱动网络从“lazy”向“rich”蜕变的核心动力。

第二阶段:对齐收敛,炼就“稀疏优质解”

当所有神经元的权重范数减小到一定程度,模型就进入了第二阶段,此时的状态类似于“小初始化”模型,具备了快速收敛的基础。在这一阶段,神经元权重会快速向优化目标的方向对齐。完成对齐后,模型会稳步收敛,最终形成一个稀疏解。具体而言,那些权重范数始终保持极小的神经元,相当于“退出”了训练过程,不再发挥作用;而真正有用的神经元则专注于捕捉数据本质规律。这种稀疏特性,正是模型泛化能力大幅提升的关键原因。

合成实验的图表清晰地展现了这一过程:部分神经元的范数先降后升,逐步成为“核心力量”;另一部分则持续维持低值,最终被自然筛选淘汰。

3

拓展验证:跨优化器的“普适性”

既然Label Noise SGD的机制如此有效,它能否推广到其他优化器上?研究团队将目光投向了Sharpness-Aware Minimization(SAM,锐度感知最小化)优化器——这种优化器的核心目标是寻找更平坦的极小值点,让模型更稳健。

实验结果给出了肯定答案:在不同设定下,SAM展现出了与Label Noise SGD高度相似的双阶段变化特征。即使是在真实场景中,用宽残差网络在CIFAR-10数据集子集上训练时,添加标签噪声后,模型的训练轨迹也与未加噪声时(接近线性模型的轨迹)截然不同,呈现出丰富学习状态的典型特征,进一步印证了这一机制的普适性。

4

未来方向:还有哪些待解的“优化谜题”

未来,研究团队计划将理论框架进一步拓展:一方面引入非线性激活函数,探究非线性网络中这种动力学机制是否依然成立;另一方面,将研究场景从回归任务延伸到更广泛的分类任务中,而这也是当前领域内仍为解决的开放问题。

从“避之不及”到“主动利用”,标签噪声的角色转变背后,是对深度学习动力学本质的深度洞察。这项研究不仅为噪声鲁棒性学习奠定了理论基础,更为实际场景中提升模型泛化能力提供了新颖而简洁的思路。

本期文章由支昕整理

往期精彩文章推荐

关于AI TIME

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾800场活动,超1000万人次观看。

我知道你

在看

提出观点,表达想法,欢迎

留言

点击阅读原文观看作者直播回放!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/28 3:02:43

基于tood_x101-64x4d-dconv-c4-c5_fpn_ms-2x_coco模型的家禽种类识别系统_1

1. 基于TOOD_x101-64x4d-dconv-c4-c5_fpn_ms-2x_coco模型的家禽种类识别系统 1.1. 引言 随着现代农业的快速发展,家禽养殖业的规模不断扩大,对家禽种类识别的需求也日益增长。传统的家禽识别方法主要依靠人工经验,存在效率低、准确性差等问…

作者头像 李华
网站建设 2026/3/28 18:10:19

从“自发自用”到“智慧调度”:农村光伏如何高效融入微电网?

分布式光伏是点亮农村绿色发展的“第一缕光”。它利用农村丰富的屋顶、庭院、农业设施顶棚等空间,将阳光就地转化为电能,直接降低了用电成本,减少了碳排放。随着技术成本下降,农村分布式光伏安装量快速增长,但简单地“…

作者头像 李华
网站建设 2026/3/19 23:28:40

先正达集团在中国加速布局全球级研发中心和制造工厂 | 美通社头条

、美通社消息:全球领先的农业科技企业先正达集团将全球领先的植保研发中心落地上海,并在江苏南通同步建设高标准制剂与工程化平台。一个旨在贯通研发到应用的植保领域"中国地标"正日益清晰。今年1月,先正达集团全球植保中国创新中心…

作者头像 李华
网站建设 2026/3/26 18:43:55

新手做自媒体,如何在30天内建立正反馈避免放弃

当你第一次踏入自媒体的世界,满心憧憬地按下“发布”按钮,却只等来寥寥几个阅读量时,那种失落感足以浇灭大部分人的热情。这几乎是每位新手创作者的必经之路——在最初的30天黄金期内,如何建立起持续的正反馈循环,避免…

作者头像 李华
网站建设 2026/3/28 1:29:53

开源的自动驾驶框架

目前主流的开源自动驾驶框架,这类框架覆盖了从入门学习、算法研发到工程落地、实车部署的全场景,核心分为全栈式框架(覆盖感知/预测/决策/规划/控制全流程,可直接对接实车)和模块化框架(聚焦单一环节&#…

作者头像 李华
网站建设 2026/3/26 22:55:53

STM32F407通过UART读取JY-901加速度数据方案

一、硬件连接与配置 1. 引脚连接 JY-901与STM32F407的UART接口连接如下(以USART2为例):JY-901引脚STM32引脚功能TXPA3JY-901发送端RXPA2JY-901接收端VCC3.3V电源供电GNDGND共地2. 波特率设置 JY-901默认波特率为9600bps,需在STM32…

作者头像 李华