弱监督与半监督分割：从涂鸦、边界框到图像级标签-洪萨配资

点击“AladdinEdu，你的AI学习实践工作坊”，注册即送-H卡级别算力，沉浸式云原生集成开发环境，80G大显存多卡并行，按量弹性计费，教育用户更享超低价。

1. 引言

语义分割作为计算机视觉的核心任务之一，要求为图像中的每个像素赋予类别标签，是实现场景理解、自动驾驶感知、医学影像分析的关键技术。自全卷积网络以来，深度语义分割模型在Cityscapes、PASCAL VOC、ADE20K等基准上取得了令人瞩目的精度。然而，这一成就建立在一个昂贵的前提之上：像素级精确标注。

标注一张Cityscapes级别的街景图像，平均需要90分钟；标注一幅医学CT切片中的器官轮廓，需要专业放射科医生耗费更长时间。这种高昂的人力成本使得大规模像素级标注数据集成为少数头部机构的专利，严重制约了语义分割技术在垂直领域（如工业质检、农业遥感、医疗影像）的落地。

为突破标注瓶颈，研究者将目光投向弱监督与半监督学习范式。弱监督分割利用比像素级标注更粗糙的监督信号进行训练，根据监督强度递减可分为：

涂鸦：标注者用线条勾勒部分前景和背景区域，标注时间约为全标注的1/10。
边界框：为每个目标标注一个紧致矩形框，标注时间约为全标注的1/20。
图像级标签：仅告知图像中存在哪些类别，不提供任何空间位置信息，标注时间约为全标注的1/50。

半监督分割则介于两者之间：拥有少量精确像素标注和大量无标注图像，通过无标注数据提供的分布信息提升模型泛化能力。

从涂鸦到边界框再到图像级标签，监督信息逐渐稀疏，分割任务的难度也随之跃升。如何从这些“不完整”的标注中恢复出精确的像素级预测，是弱监督与半监督分割的核心科学问题。

本文将围绕三种典型弱标注形式与半监督范式展开系统论述。第2节建立弱监督与半监督分割的问题定义与评估体系；第3节至第5节分别深入涂鸦标注、边界框标注、图像级标签驱动的分割方法；第6节阐述半监督分割的核心技术；第7节提供部分算法代码示例；第8节讨论实际应用中的选型与挑战；第9节展望未来趋势；第10节总结全文。

2. 问题定义与评估体系

7. 核心代码示例

7.1 CAM生成伪标签

importtorchimporttorch.nn.functionalasFdefgenerate_cam(feature_maps,fc_weights,target_class):""" feature_maps: [B, C, H, W] 最后一层卷积特征 fc_weights: [num_classes, C] 全连接层权重 target_class: 目标类别索引 """B,C,H,W=feature_maps.shape weights=fc_weights[target_class]# [C]cam=torch.einsum('bchw,c->bhw',feature_maps,weights)cam=F.relu(cam)cam=(cam-cam.min())/(cam.max()-cam.min()+1e-8)returncamdefcam_to_pseudo_label(cam,threshold=0.3):"""CAM阈值化生成伪标签"""pseudo_label=torch.zeros_like(cam,dtype=torch.long)pseudo_label[cam>threshold]=1# 忽略低置信度区域（设为255）ignore_mask=(cam<=threshold)&(cam>0.1)pseudo_label[ignore_mask]=255returnpseudo_label

7.2 半监督分割的一致性正则化

defconsistency_loss(student_pred,teacher_pred,confidence_threshold=0.8):""" student_pred: [B, C, H, W] 学生模型预测（含softmax） teacher_pred: [B, C, H, W] 教师模型预测（含softmax） """max_probs,pseudo_labels=teacher_pred.max(dim=1)mask=max_probs>confidence_thresholdifmask.sum()==0:returntorch.tensor(0.0,device=student_pred.device)loss=F.cross_entropy(student_pred,pseudo_labels,reduction='none')loss=(loss*mask).sum()/mask.sum()returnloss

7.3 边界框弱监督的颜色相似性损失

defbox_color_similarity_loss(features,boxes):""" features: [B, C, H, W] 像素特征 boxes: list of [x1, y1, x2, y2] 边界框坐标 """loss=0.0forbinrange(features.shape[0]):forboxinboxes[b]:x1,y1,x2,y2=box# 提取框内特征box_feat=features[b,:,y1:y2,x1:x2]# [C, h, w]ifbox_feat.numel()==0:continue# 计算像素间颜色相似度（用特征余弦距离）box_feat_flat=box_feat.view(features.shape[1],-1).T# [N, C]sim=torch.mm(box_feat_flat,box_feat_flat.T)# [N, N]# 鼓励相近像素具有相似分割预测# 此处简化，实际需结合分割预测returnloss

8. 实际应用中的选型与挑战

8.1 标注成本与精度权衡

标注类型	相对标注时间	可达到精度（占全监督比例）	适用场景
全监督	1×	100%	高精度要求，预算充足
涂鸦	0.1×	85-90%	交互式分割，医疗标注辅助
边界框	0.05×	70-80%	检测任务扩展，实例分割弱监督
图像级	0.02×	60-75%	大规模数据初筛，多模态预训练
半监督	部分全监督+大量无标注	90-95%（标注量10-20%）	有少量标注积累，大量原始数据