联邦学习中的数据异构(又称数据异质性,即常说的 Non-IID),核心是指各客户端的本地数据分布与全局数据分布不一致、客户端之间数据分布存在显著差异,是联邦学习区别于中心化训练的核心挑战。
学术界通常将数据异构分为五大类,其中标签分布异构、样本量异构、特征分布异构是研究和实际场景中最常见的三类,也是你实验中会接触到的核心异构类型。
一、标签分布异构(Label Distribution Skew)
最经典、实验最常用的 Non-IID 类型,也叫「先验分布偏移」。
- 定义:不同客户端的标签类别分布差异显著,即标签的概率分布 ( P(y) ) 在客户端间不一致,但给定标签下的特征分布 ( P(x|y) ) 保持一致。
- 成因:数据按标签天然聚集。比如不同科室的医院数据病种分布不同;不同地区的电商数据商品类别偏好不同。
- 典型实验设置:
- 病态 Non-IID(Pathological Non-IID):按标签硬划分,比如 MNIST 中每个客户端只拥有 1~2 类数字样本,是强异构的代表设置。
- Dirichlet 分布 Non-IID:通过 Dirichlet(α) 分布为每个客户端采样标签占比,α 越小异构性越强,是目前顶会论文中最主流的定量异构设置。
- 常见程度:⭐⭐⭐⭐⭐
学术研究中默认的「Non-IID」几乎都指标签分布异构;现实场景中也广泛存在。 - 对算法的影响:会导致本地更新方向偏离全局最优,造成模型漂移,是 FedProx、SCAFFOLD 等算法主要针对的问题;也是 Krum 这类「单选代表」式鲁棒算法失效的核心原因。
二、样本量异构(Quantity Skew)
现实场景必然存在的异构类型,常和其他异构叠加出现。
- 定义:不同客户端持有的样本总数量差异巨大,数据量呈现极不均衡的长尾分布。
- 成因:客户端的算力、使用频率、数据采集能力天然存在差异。比如活跃用户和低频用户的手机行为数据量差距悬殊;三甲医院和社区医院的病例数量相差几个数量级。
- 典型表现:100 个客户端中,前 10% 的客户端占有 80% 以上的总样本量。
- 常见程度:⭐⭐⭐⭐⭐
真实联邦场景 100% 存在,学术实验中常与标签分布异构叠加使用,更贴近真实情况。 - 对算法的影响:FedAvg 默认按样本量加权聚合,会导致数据量大的客户端主导全局模型,小客户端的知识被淹没;若改为等权聚合,又会引入大量小客户端的噪声。
三、特征分布异构(Feature Distribution Skew)
跨域/跨设备场景最普遍的异构类型,也叫「协变量偏移」。
- 定义:相同标签对应的特征空间分布不一致,即 ( P(x|y) ) 在客户端间存在差异,但标签的分布 ( P(y) ) 一致。
- 成因:数据采集环境、设备、采集主体不同。比如:
- 手写数字识别中,不同人的书写风格、笔画粗细、纸张背景差异大;
- 计算机视觉任务中,不同摄像头的光照、角度、分辨率参数不同;
- 医疗影像中,不同厂商的 CT/MRI 设备成像对比度、噪声水平不同。
- 常见程度:⭐⭐⭐⭐
跨机构、跨设备的联邦落地场景非常普遍;纯分类算法验证实验中使用频率低于标签分布异构。 - 对算法的影响:模型在本地学到的特征模式无法通用到其他客户端,全局模型泛化能力下降;特征空间的偏移也会导致鲁棒聚合算法的距离度量失效。
四、概念异构(Concept Shift / Concept Drift)
更复杂、更难处理的异构类型,相对少见。
- 定义:特征与标签之间的映射关系在客户端间存在差异,即后验概率 ( P(y|x) ) 不同——相同的特征输入,在不同客户端对应不同的标签含义。
- 细分两类:
- 概念偏移(Concept Shift):空间维度的差异,不同客户端的映射规则不同。比如同样的体温数值,成人和儿童的「发烧」判定标准不同。
- 概念漂移(Concept Drift):时间维度的差异,同一客户端随时间推移,特征-标签的映射发生变化。比如电商推荐中用户兴趣随季节、热点动态变化。
- 常见程度:⭐⭐
仅在特定业务场景中出现,属于高阶异构问题,普通分类任务很少涉及。 - 对算法的影响:是最难处理的异构类型,客户端本地的分类逻辑本身就存在冲突,普通聚合算法会严重失效。
五、混合异构
现实场景中几乎不存在单一类型的异构,绝大多数情况是标签分布异构 + 样本量异构 + 特征分布异构同时叠加,这也是很多实验室效果优异的算法落地后表现大幅下降的核心原因。
总结:哪些最常见?
- 做实验/读论文:标签分布异构是绝对主流,提到「Non-IID」不加说明时,默认指标签分布异构;
- 真实落地场景:样本量异构是必然存在的基础异构,通常和标签异构、特征异构共同出现;