news 2026/4/22 13:15:51

弱监督与半监督分割:从涂鸦、边界框到图像级标签

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
弱监督与半监督分割:从涂鸦、边界框到图像级标签

点击AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价


1. 引言

语义分割作为计算机视觉的核心任务之一,要求为图像中的每个像素赋予类别标签,是实现场景理解、自动驾驶感知、医学影像分析的关键技术。自全卷积网络以来,深度语义分割模型在Cityscapes、PASCAL VOC、ADE20K等基准上取得了令人瞩目的精度。然而,这一成就建立在一个昂贵的前提之上:像素级精确标注

标注一张Cityscapes级别的街景图像,平均需要90分钟;标注一幅医学CT切片中的器官轮廓,需要专业放射科医生耗费更长时间。这种高昂的人力成本使得大规模像素级标注数据集成为少数头部机构的专利,严重制约了语义分割技术在垂直领域(如工业质检、农业遥感、医疗影像)的落地。

为突破标注瓶颈,研究者将目光投向弱监督半监督学习范式。弱监督分割利用比像素级标注更粗糙的监督信号进行训练,根据监督强度递减可分为:

半监督分割则介于两者之间:拥有少量精确像素标注和大量无标注图像,通过无标注数据提供的分布信息提升模型泛化能力。

从涂鸦到边界框再到图像级标签,监督信息逐渐稀疏,分割任务的难度也随之跃升。如何从这些“不完整”的标注中恢复出精确的像素级预测,是弱监督与半监督分割的核心科学问题。

本文将围绕三种典型弱标注形式与半监督范式展开系统论述。第2节建立弱监督与半监督分割的问题定义与评估体系;第3节至第5节分别深入涂鸦标注、边界框标注、图像级标签驱动的分割方法;第6节阐述半监督分割的核心技术;第7节提供部分算法代码示例;第8节讨论实际应用中的选型与挑战;第9节展望未来趋势;第10节总结全文。


2. 问题定义与评估体系

2.1 从全监督到弱监督/半监督

设训练数据集为D = { ( I i , Y i ) } i = 1 N \mathcal{D} = \{(\mathbf{I}_i, \mathbf{Y}_i)\}_{i=1}^ND={(Ii,Yi)}i=1N,其中I i ∈ R H × W × 3 \mathbf{I}_i \in \mathbb{R}^{H \times W \times 3}IiRH×W×3为输入图像,Y i ∈ { 1 , … , C } H × W \mathbf{Y}_i \in \{1, \dots, C\}^{H \times W}Yi{1,,C}H×W为像素级真实标签。在全监督设定下,Y i \mathbf{Y}_iYi是完整的密集标签。

涂鸦弱监督Y i \mathbf{Y}_iYi中仅有少量像素被标注,其余像素标记为未知。设已知标注像素集为Ω i \Omega_iΩi,则训练时仅Ω i \Omega_iΩi内的像素参与损失计算。

边界框弱监督:不提供Y i \mathbf{Y}_iYi,而是提供目标实例的边界框集合B i = { b k = ( x k , y k , w k , h k , c k ) } \mathcal{B}_i = \{b_k = (x_k, y_k, w_k, h_k, c_k)\}Bi={bk=(xk,yk,wk,hk,ck)},其中c k c_kck为类别标签。边界框内部区域的像素属于该类别的概率较高,但确切轮廓未知。

图像级弱监督:仅提供图像中包含的类别集合C i ⊆ { 1 , … , C } \mathcal{C}_i \subseteq \{1, \dots, C\}Ci{1,,C},以多热编码z i ∈ { 0 , 1 } C \mathbf{z}_i \in \{0,1\}^Czi{0,1}C表示。无任何空间位置信息。

半监督分割D = D L ∪ D U \mathcal{D} = \mathcal{D}_L \cup \mathcal{D}_UD=DLDU,其中D L \mathcal{D}_LDL包含少量像素级精确标注,D U \mathcal{D}_UDU为大量无标注图像。目标是在D L \mathcal{D}_LDLD U \mathcal{D}_UDU的联合作用下训练分割模型。

2.2 评估指标

弱监督与半监督分割的评估与全监督一致,主要采用:

此外,弱监督方法常报告伪标签质量(在验证集上生成的伪标签与真实标签的mIoU),作为中间结果衡量方法有效性。


3. 涂鸦驱动的弱监督分割

涂鸦标注是最接近全监督的弱标注形式。标注者用线条在图像上“涂鸦”,标记出部分前景和背景区域。由于涂鸦直接提供了部分像素的类别真值,其核心挑战在于:如何将稀疏标注传播至整幅图像

3.1 基于图模型的标签传播

在深度学习普及之前,基于图模型的交互式分割已广泛采用涂鸦作为用户输入。代表性工作是GrabCut随机游走

GrabCut:用户提供前景和背景的涂鸦(矩形或线条),算法通过高斯混合模型分别对前景和背景颜色分布建模,构建图割能量函数,迭代优化分割边界。GrabCut的局限性在于依赖颜色直方图,对复杂纹理和光照变化敏感。

随机游走:将图像建模为图,每个像素为节点,相邻像素间边的权重由颜色相似度决定。用户涂鸦提供已知标签的种子点,未标注像素的标签通过求解狄利克雷问题得到——相当于从种子点出发的随机游走首次到达各标签的概率。随机游走对弱边界敏感,计算复杂度较高。

3.2 深度交互式分割

深度学习的引入使得涂鸦驱动的分割从“图模型+颜色特征”升级为“CNN+端到端学习”。

DeepCut:将GrabCut的图割能量与CNN特征结合。使用预训练CNN提取像素级特征,替代原始RGB颜色作为图割的节点特征,显著提升了分割鲁棒性。

DEXTR:将用户提供的涂鸦转换为距离图(每个像素到最近涂鸦点的欧氏距离),与原始RGB图像拼接后输入CNN。CNN输出前景概率图,经CRF后处理得到最终分割。DEXTR在PASCAL VOC上仅需4次点击即可达到与全监督相当的分割精度,展现了深度交互式分割的巨大潜力。

FCA-Net:引入注意力机制,让网络聚焦于用户点击区域,进一步提升了交互效率和分割精度。

3.3 涂鸦作为训练监督信号

上述交互式分割需在推理时提供涂鸦,属于“推理时交互”。另一类场景是:训练时仅用涂鸦标注的图像,推理时无需交互,直接输出分割结果。

ScribbleSup:最早将涂鸦作为弱监督信号训练CNN的工作。其核心思想是:将涂鸦像素的真实标签作为锚点,对未标注像素施加成对约束——若两个像素在特征空间相似,则它们的预测标签应一致。具体实现中,在CNN末端添加CRF层,通过全连接CRF的成对势传播标签,并与CNN联合训练。

RAWKS:利用涂鸦训练分类网络,生成类别激活图作为伪标签,再通过条件随机场迭代精修。

SPML:提出“部分交叉熵损失”,仅对涂鸦覆盖的像素计算监督损失,对未标注像素施加特征一致性正则化。SPML在PASCAL VOC上以涂鸦标注达到全监督约85%的mIoU。

涂鸦弱监督的核心优势在于监督信号相对密集,信息损失小,精度上限高。其局限在于涂鸦标注仍需一定人工成本,且标注一致性难以保证(不同标注者涂鸦风格差异大)。


4. 边界框驱动的弱监督分割

边界框标注是目标检测的标准标注格式,标注者只需用矩形框住每个目标并给出类别。相比像素级标注,边界框标注效率提升约20倍。边界框提供了目标的大致位置和类别,但缺失精确轮廓。

4.1 传统图割方法

GrabCut天然支持边界框输入:用户框定目标区域,算法将框外区域视为确定背景,框内区域视为可能前景,通过迭代图割优化分割边界。GrabCut在简单背景下效果良好,但对复杂场景鲁棒性差。

MILCut:将多示例学习与图割结合。将边界框视为正包(包含目标像素),框外为负包(仅含背景像素),通过迭代优化包级分类和像素级分割。

4.2 基于MCG与候选区域的伪标签生成

BoxSup:首先使用MCG生成大量候选分割区域,然后用边界框作为弱监督信号,通过多示例学习筛选与边界框重叠度高的候选区域作为伪标签,最后用伪标签训练全监督分割网络。BoxSup在PASCAL VOC上取得了当时最优的边界框弱监督分割精度。

WSSL:将边界框弱监督分割形式化为期望最大化问题。E步:固定分割网络,为每个边界框内的像素生成伪标签;M步:用伪标签更新分割网络。迭代收敛后获得高质量分割模型。

4.3 深度边界框先验

BBAM:提出边界框注意力模型。在CNN中插入边界框注意力模块,使网络在边界框区域内增强特征响应,框外区域抑制响应。训练时仅需边界框监督,通过多标签分类损失和边界框紧凑性损失联合优化。

SDI:利用边界框生成“显著性实例图”,再通过条件随机场转化为像素级伪标签,训练分割网络。

BoxInst:在Mask R-CNN框架下,用边界框替代掩码标注训练实例分割。核心是设计两项无需掩码标注的损失:颜色相似性损失鼓励框内颜色相近的像素具有相同标签;边界感知损失惩罚分割边界不与图像边缘重合的部分。BoxInst在COCO上用边界框标注达到约35 mAP,证明了边界框弱监督在实例分割上的可行性。

4.4 GrabCut与深度学习的融合

Deep GrabCut:将GrabCut的迭代优化过程展开为RNN,实现端到端学习。CNN提取特征,图割能量函数可微分,整个系统可联合优化。

LDF:提出“可学习距离场”,用神经网络预测每个像素到目标边界的距离,边界框提供距离场的初始范围约束,通过对抗训练精修边界。

边界框弱监督在三种弱标注中处于中间地带:标注效率较高,空间信息损失可控。其核心挑战在于精确轮廓的恢复——边界框仅给出目标的大致范围,轮廓细节需依赖图像边缘信息或形状先验补全。


5. 图像级标签驱动的弱监督分割

图像级标签仅告知图像中“有哪些类别”,是最稀疏的监督形式,标注成本极低(可自动从图像标签或周围文本获取)。但其空间信息的完全缺失使得像素级分割异常困难。主流方法遵循“类别激活图→伪标签→分割网络”的三步范式。

5.1 类别激活图

CAM:在分类网络末端,全局平均池化层将特征图压缩为向量,送入全连接分类层。全连接层第c cc类的权重向量与特征图的加权和即为类别c cc的激活图。CAM可定位分类器关注的图像区域,但空间分辨率低,且倾向于仅激活最具判别力的局部区域(如“鸟头”而非“整只鸟”)。

Grad-CAM:利用分类得分对特征图的梯度作为权重,无需修改网络结构即可生成任意层的CAM。Grad-CAM被广泛用于弱监督定位和分割的种子生成。

局限性:CAM倾向于激活局部显著区域,无法覆盖完整目标。后续研究通过擦除策略、对抗擦除、自监督学习等手段扩展激活区域。

5.2 伪标签生成与精修

获得初始CAM后,需将其转化为高质量的像素级伪标签。

SEC:通过三项损失扩展CAM:种子损失(约束CAM在显著区域高响应)、扩展损失(通过CRF传播CAM至相似像素)、边界约束损失。SEC是早期图像级弱监督分割的经典框架。

DSRG:将SEC生成的伪标签作为监督信号,训练一个分割网络;同时分割网络的预测经过CRF精修后反哺伪标签更新,形成迭代自训练闭环。

IRN:提出“实例关系网络”,显式建模像素间的类内关联和类间边界,有效抑制CAM激活区域的过度扩展,显著提升了伪标签的边界精度。

SEAM:引入自监督等变注意力机制,通过图像变换(翻转、缩放)约束CAM的等变性,使激活区域更完整地覆盖目标。

5.3 端到端弱监督分割

AffinityNet:学习像素间的语义亲和度,通过随机游走将CAM种子传播至全图,生成高质量伪标签。

RRM:在分类网络中插入“像素级度量学习模块”,在特征空间拉近同类像素、推开异类像素,使CAM自然覆盖完整目标。

CLIMS:利用CLIP等图文大模型的跨模态对齐能力,将文本标签与图像区域对齐,生成更精准的类别激活图。

5.4 挑战与突破

图像级弱监督分割面临三大核心挑战:

目前,图像级弱监督分割在PASCAL VOC上可达68-72 mIoU(全监督约78-82),差距正在快速缩小。


6. 半监督分割:少标注+多无标注

半监督分割假设我们拥有少量精确标注图像和大量无标注图像。其核心思想是:利用无标注图像的数据分布信息,提升模型泛化能力

6.1 自训练与伪标签

最直观的半监督策略是自训练

  1. 用有标注数据D L \mathcal{D}_LDL训练初始分割模型f θ f_\thetafθ
  2. 对无标注数据D U \mathcal{D}_UDU进行预测,选取高置信度像素作为伪标签Y ^ i \hat{\mathbf{Y}}_iY^i
  3. 将伪标注数据加入训练集,重新训练模型。
  4. 迭代步骤2-3直至收敛。

自训练的关键在于伪标签质量。为提升可靠性,通常采用置信度阈值过滤类别平衡采样渐进式伪标签生成等策略。

CCT:提出“交叉一致性训练”,对同一无标注图像施加不同扰动(如不同数据增强),约束两次预测结果一致,隐式地利用了无标注数据的流形结构。

6.2 一致性正则化

一致性正则化是半监督学习的核心思想:模型对输入扰动应具有预测不变性

Mean Teacher:维护一个教师模型(指数滑动平均更新)和一个学生模型。学生模型在无标注数据上训练,损失为与教师模型预测的均方误差。教师模型的稳定预测提供了高质量监督信号。

CPS:提出“交叉伪监督”,用两个独立初始化的分割网络互相为对方生成伪标签,避免单模型自训练的错误累积。

FixMatch:对无标注图像施加弱增强(如翻转)和强增强(如颜色抖动、CutMix)。弱增强的预测经置信度阈值筛选后,作为强增强预测的监督目标。FixMatch在半监督分割中表现卓越。

6.3 特征扰动与对比学习

PseudoSeg:在伪标签生成的基础上,引入对比学习——在特征空间拉近同一图像不同增强视图的特征,推开不同图像的特征。对比学习显著提升了特征表示的判别力。

ReCo:提出“区域对比学习”,将同一语义区域的像素特征聚合,不同语义区域的特征分离,直接在特征层面强化分割能力。

6.4 半监督实例分割

NoisyBound:在Mask R-CNN框架下,用少量全标注数据和大量边界框标注数据进行半监督实例分割。边界框作为弱监督信号补充掩码标注的不足。

PointSup:用少量点标注替代全掩码,结合大量无标注数据进行半监督训练,在COCO上以极低标注成本达到接近全监督的性能。


7. 核心代码示例

7.1 CAM生成伪标签

importtorchimporttorch.nn.functionalasFdefgenerate_cam(feature_maps,fc_weights,target_class):""" feature_maps: [B, C, H, W] 最后一层卷积特征 fc_weights: [num_classes, C] 全连接层权重 target_class: 目标类别索引 """B,C,H,W=feature_maps.shape weights=fc_weights[target_class]# [C]cam=torch.einsum('bchw,c->bhw',feature_maps,weights)cam=F.relu(cam)cam=(cam-cam.min())/(cam.max()-cam.min()+1e-8)returncamdefcam_to_pseudo_label(cam,threshold=0.3):"""CAM阈值化生成伪标签"""pseudo_label=torch.zeros_like(cam,dtype=torch.long)pseudo_label[cam>threshold]=1# 忽略低置信度区域(设为255)ignore_mask=(cam<=threshold)&(cam>0.1)pseudo_label[ignore_mask]=255returnpseudo_label

7.2 半监督分割的一致性正则化

defconsistency_loss(student_pred,teacher_pred,confidence_threshold=0.8):""" student_pred: [B, C, H, W] 学生模型预测(含softmax) teacher_pred: [B, C, H, W] 教师模型预测(含softmax) """max_probs,pseudo_labels=teacher_pred.max(dim=1)mask=max_probs>confidence_thresholdifmask.sum()==0:returntorch.tensor(0.0,device=student_pred.device)loss=F.cross_entropy(student_pred,pseudo_labels,reduction='none')loss=(loss*mask).sum()/mask.sum()returnloss

7.3 边界框弱监督的颜色相似性损失

defbox_color_similarity_loss(features,boxes):""" features: [B, C, H, W] 像素特征 boxes: list of [x1, y1, x2, y2] 边界框坐标 """loss=0.0forbinrange(features.shape[0]):forboxinboxes[b]:x1,y1,x2,y2=box# 提取框内特征box_feat=features[b,:,y1:y2,x1:x2]# [C, h, w]ifbox_feat.numel()==0:continue# 计算像素间颜色相似度(用特征余弦距离)box_feat_flat=box_feat.view(features.shape[1],-1).T# [N, C]sim=torch.mm(box_feat_flat,box_feat_flat.T)# [N, N]# 鼓励相近像素具有相似分割预测# 此处简化,实际需结合分割预测returnloss

8. 实际应用中的选型与挑战

8.1 标注成本与精度权衡

标注类型相对标注时间可达到精度(占全监督比例)适用场景
全监督100%高精度要求,预算充足
涂鸦0.1×85-90%交互式分割,医疗标注辅助
边界框0.05×70-80%检测任务扩展,实例分割弱监督
图像级0.02×60-75%大规模数据初筛,多模态预训练
半监督部分全监督+大量无标注90-95%(标注量10-20%)有少量标注积累,大量原始数据

8.2 领域迁移与鲁棒性

弱监督模型对标注质量敏感。不同标注者的涂鸦风格差异、边界框的松紧程度、图像标签的噪声,均会显著影响模型性能。在垂直领域(如医学、遥感)应用时,建议:

8.3 工程部署考量

弱监督生成的伪标签可作为标注辅助工具:先用弱监督模型生成初始分割,再交由标注人员修正,效率提升3-5倍。这一“人机协同”模式已在多家自动驾驶和医疗AI公司落地。

半监督方法则适合持续学习场景:模型上线后持续接收无标注数据,通过自训练不断优化,实现“越用越准”。


9. 未来展望

9.1 大模型驱动的弱监督分割

CLIP、SAM、DINOv2等大模型展现了惊人的零样本和少样本分割能力。SAM仅需一个点或框即可生成高质量分割掩码,本质上是涂鸦/边界框弱监督的终极形态。未来的弱监督分割将更多地依赖大模型的知识蒸馏和提示学习,而非从头训练。

9.2 多模态弱监督

图像级标签可通过周围文本、音频描述等多模态信息自动获取。图文预训练模型使“文本即标签”成为可能。多模态弱监督将极大扩展分割任务的适用范围,使分割模型能理解从未见过的概念。

9.3 统一的弱监督学习理论

当前弱监督方法多为经验性设计,缺乏统一的理论框架。能否建立“监督信息量”与“可恢复精度”之间的信息论关系?这将是未来理论研究的重要方向。

9.4 面向开放世界的弱监督分割

现实世界是开放的——新类别不断涌现。弱监督分割需要支持增量学习和开放集识别,在仅有图像级标签的提示下,持续学习新类别的分割能力。


10. 总结

弱监督与半监督分割是语义分割从“精标依赖”走向“粗标可用”的关键技术路径。本文系统梳理了涂鸦、边界框、图像级标签三种弱监督形式的分割方法,以及半监督分割的核心技术。从基于图模型的标签传播到深度端到端弱监督,从类别激活图到大模型提示分割,监督信号不断稀疏,但算法智能持续攀升。

涂鸦标注保留了较多空间信息,精度上限高;边界框标注在效率与精度间取得平衡;图像级标签标注成本极低,但空间信息完全缺失,需精巧的伪标签生成策略。半监督学习则通过一致性正则化、自训练等手段,在少量精标数据下充分挖掘无标注数据的价值。

随着大模型时代的来临,弱监督与半监督分割正从“弥补标注不足的权宜之计”演变为“高效利用多源监督信号的智能范式”。未来,更通用的弱监督框架、更紧密的人机协同标注、更强大的跨模态迁移,将推动分割技术向更低成本、更高精度、更广适用范围的方向持续演进。


参考文献

[1] Lin D, Dai J, Jia J, et al. ScribbleSup: Scribble-supervised convolutional networks for semantic segmentation[C]. CVPR, 2016: 3159-3167.
[2] Dai J, He K, Sun J. BoxSup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation[C]. ICCV, 2015: 1635-1643.
[3] Zhou B, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[C]. CVPR, 2016: 2921-2929.
[4] Kolesnikov A, Lampert C H. Seed, expand and constrain: Three principles for weakly-supervised image segmentation[C]. ECCV, 2016: 695-711.
[5] Ahn J, Kwak S. Learning pixel-level semantic affinity with image-level supervision for weakly supervised semantic segmentation[C]. CVPR, 2018: 4981-4990.
[6] Xu L, Ouyang W, Bennamoun M, et al. Deep interactive thin object selection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.
[7] Sohn K, Zhang Z, Li C L, et al. FixMatch: Simplifying semi-supervised learning with consistency and confidence[C]. NeurIPS, 2020: 596-608.
[8] Tarvainen A, Valpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[C]. NIPS, 2017: 1195-1204.
[9] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(4): 834-848.
[10] Kirillov A, Mintun E, Ravi N, et al. Segment anything[C]. ICCV, 2023: 4015-4026.


点击AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/22 13:07:21

FreeSWITCH 1.10.10 图形化配置实战:讯时FXO网关对接公网IPPBX实现SIP落地

1. 环境准备与基础概念 在开始配置之前&#xff0c;我们需要先理解几个关键概念。FreeSWITCH作为一款开源的IPPBX系统&#xff0c;它的强大之处在于能够灵活地处理各种语音通信场景。而FXO网关则是连接传统电话线路&#xff08;PSTN&#xff09;和IP网络的重要桥梁&#xff0c;…

作者头像 李华