news 2026/4/21 12:39:34

即插即用系列 | IEEE TMM 2025 SPDFusion:当语义分割成为图像融合的“导师”

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
即插即用系列 | IEEE TMM 2025 SPDFusion:当语义分割成为图像融合的“导师”

论文标题:SPDFusion: A Semantic Prior Knowledge-Driven Method for Infrared and Visible Image Fusion

论文来源:IEEE Transactions on Multimedia (Vol. 27, 2025)
关键词:Image Fusion, Semantic Prior, Deep Learning, Task-Driven, GAN

论文原文 (Paper):https://ieeexplore.ieee.org/abstract/document/10814643


GitHub 仓库链接(包含论文解读及即插即用代码):https://github.com/AITricks/AITricks
哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • 1. 核心思想(Core Idea)
      • 2. 背景与动机(Background & Motivation)
        • 2.1 文本背景总结
        • 2.2 动机图解分析
      • 3. 主要创新点(Main Contributions)
      • 4. 方法细节(Method Details)
        • 4.1 整体网络架构
        • 4.2 核心创新模块详解
        • 4.3 理念与机制总结
        • 4.4 图解总结
      • 5. 即插即用模块的作用
      • 6. 实验部分简单分析 (Experiments)
    • 在这里插入图片描述
      • 7. 获取即插即用代码关注 【AI即插即用】

1. 核心思想(Core Idea)

本文提出了一种名为SPDFusion的新型融合框架,旨在解决传统红外与可见光图像融合方法忽略语义信息,导致融合图像在下游高级视觉任务(如语义分割)中表现不佳的问题。其核心策略是利用预训练的语义分割模型提取语义先验知识,通过语义特征感知模块 (SFPM)语义特征嵌入模块 (SFEM)将这些高层语义信息深度注入到融合过程中。同时,结合区域语义对抗损失,强制模型针对不同类别的物体区域进行精细化生成,从而实现“既看得清,又好识别”的融合效果。


2. 背景与动机(Background & Motivation)

2.1 文本背景总结

红外与可见光图像融合的初衷是结合两者的互补信息(红外的热辐射目标 + 可见光的纹理细节)。

  • 现有问题:大多数现有的深度学习融合方法(基于 CNN 或 GAN)主要关注像素级的重构损失或视觉质量指标。它们往往对所有像素一视同仁,忽略了图像中不同区域(如人、车、背景)具有不同的语义重要性。
  • 后果:虽然融合出的图片人眼看着还行,但当把这些图片送入机器视觉系统(如自动驾驶中的分割网络)时,由于物体边缘模糊或特征混淆,导致分割精度(mIoU)很低。这就是典型的**“语义鸿沟”**问题。
2.2 动机图解分析

看图说话与痛点分析

  • 对比局限性:观察图中的传统方法结果,虽然红外目标(如行人)被高亮了,但其边缘可能与背景纹理混杂在一起。在对应的分割图中,可以看到行人的轮廓是支离破碎的。
  • 核心问题引出:这说明单纯的像素级融合丢失了**“物体是什么”**的高层信息。
  • 本文思路:SPDFusion(最右侧)的分割结果非常清晰完整。这是因为网络在融合时“知道”这里有一个人,那里是一辆车,因此在生成像素时会有意识地保持这些区域的特征一致性,从而解决了底层特征与高层语义不匹配的问题。

3. 主要创新点(Main Contributions)

  1. 语义驱动的融合框架:构建了一个双分支结构,将预训练分割网络提取的语义掩码和特征作为先验(Prior),显式地指导图像融合过程。
  2. 语义特征感知模块 (SFPM):利用语义掩码作为空间注意力图,指导编码器关注图像中的显著语义区域(如前景目标),增强源图像特征的提取。
  3. 语义特征嵌入模块 (SFEM):将高维语义特征通过嵌入的方式注入到解码器中,确保在重构融合图像时,物体的语义类别信息不丢失。
  4. 区域语义对抗机制:提出了一种基于类别的区域对抗损失,将鉴别器细化到具体的语义类别(如只判别“车”这一类生成的真假),显著提升了特定目标的生成质量。

4. 方法细节(Method Details)

4.1 整体网络架构

数据流详解
SPDFusion 包含三个主要部分:语义提取分支图像融合分支区域鉴别器

  1. 输入 (Input):红外图像I i r I_{ir}Iir和可见光图像I v i I_{vi}Ivi
  2. 语义提取分支 (Semantic Branch)
    • 使用预训练好的分割模型(如 BiSeNet)分别处理I i r I_{ir}IirI v i I_{vi}Ivi
    • 输出:得到语义特征图F s e g F_{seg}Fseg和语义掩码(Mask)M s e g M_{seg}Mseg。这些信息作为“导师”信号。
  3. 图像融合分支 (Fusion Branch)
    • 编码器 (Encoder):提取图像特征。在此过程中,SFPM被插入,利用语义掩码M s e g M_{seg}Mseg来加权特征图,强化前景。
    • 特征融合层:将红外和可见光特征进行拼接或相加。
    • 解码器 (Decoder):重构图像。在此过程中,SFEM被插入,将语义特征F s e g F_{seg}Fseg嵌入到解码流中。
  4. 对抗训练 (Discriminator)
    • 生成的融合图像I f I_fIf被送入鉴别器。鉴别器不仅判断真假,还结合语义标签进行区域判别
  5. 输出 (Output):最终得到既保留纹理又具备强语义特征的融合图像。
4.2 核心创新模块详解

模块 A:语义特征感知模块 (SFPM)

  • 内部结构
    • 输入:源图像的中间特征F e n c F_{enc}Fenc和 语义掩码M s e g M_{seg}Mseg
    • 流动:语义掩码经过下采样与特征图尺寸对齐,然后通过一个卷积层生成空间注意力权重
    • 操作F o u t = F e n c ⊙ A t t e n t i o n ( M s e g ) + F e n c F_{out} = F_{enc} \odot Attention(M_{seg}) + F_{enc}Fout=FencAttention(Mseg)+Fenc
  • 设计目的
    • 这是一种空间注意力机制。它告诉编码器:“这里是人,那里是车,请重点提取这些区域的纹理特征,忽略无关的背景噪声。”

模块 B:语义特征嵌入模块 (SFEM)

  • 内部结构
    • 输入:解码器的特征F d e c F_{dec}Fdec和 语义特征F s e g F_{seg}Fseg(来自分割网络中间层)。
    • 流动:借鉴了 SPADE (Spatially-Adaptive Normalization) 的思想。语义特征被用来生成缩放因子γ \gammaγ和偏置因子β \betaβ
    • 操作F o u t = γ ( F s e g ) ⋅ N o r m ( F d e c ) + β ( F s e g ) F_{out} = \gamma(F_{seg}) \cdot Norm(F_{dec}) + \beta(F_{seg})Fout=γ(Fseg)Norm(Fdec)+β(Fseg)
  • 设计目的
    • 这是一种条件归一化机制。它不仅是简单的特征相加,而是用语义信息去“调制”融合特征的分布。确保解码出来的像素不仅像图像,更像具体的“物体类”。
4.3 理念与机制总结

SPDFusion 的核心理念是“语义流引导像素流”

  • 机制:传统方法是 Bottom-up(从像素到特征),SPDFusion 引入了 Top-down(从语义到特征)的反馈。
  • 公式解读I f u s e d = G ( I i r , I v i ∣ S e m a n t i c _ P r i o r ) I_{fused} = G(I_{ir}, I_{vi} | Semantic\_Prior)Ifused=G(Iir,IviSemantic_Prior)
  • 协同工作:SFPM 在前端负责“聚焦目标”,SFEM 在后端负责“保持身份”,区域对抗损失负责“细节打磨”。三者构成了完整的语义闭环。
4.4 图解总结

回到“动机图解”的核心问题:

  • SFPM解决了红外目标在可见光背景中容易丢失的问题(通过掩码加权)。
  • SFEM解决了融合图像在分割网络中特征不匹配的问题(语义鸿沟),确保生成的特征符合分割网络的分布偏好。
  • 因此,最终的融合图像在图 1 中能产生完美的分割结果。

5. 即插即用模块的作用

本论文提出的模块具有很好的通用性,可迁移至其他任务:

  • SFPM (语义感知)
    • 适用场景:任何需要突出前景目标的图像增强任务,如显著性目标检测去雾(关注物体而非天空)。
    • 应用:可以插入到 U-Net 的 Encoder 中,利用粗糙的掩码引导特征提取。
  • 区域语义对抗损失 (Regional Semantic Adversarial Loss)
    • 适用场景生成对抗网络 (GAN)类的任务。
    • 应用:在做图像修复(Inpainting)或风格迁移时,如果你希望生成的特定物体(如人脸、车牌)更加逼真,可以用这种基于Mask的局部判别器替代全局判别器。

6. 实验部分简单分析 (Experiments)

论文在MSRSRoadScene等数据集上进行了验证。

  1. 视觉质量
    • SPDFusion 的结果对比度高,目标清晰。特别是在光照不足的场景下,红外目标的轮廓非常锐利。
  2. 客观指标
    • 在 EN (信息熵)、SD (标准差)、SF (空间频率) 等常规指标上均达到 SOTA。
  3. 下游任务评估(最重要)
    • 论文将融合图像送入语义分割网络测试mIoU (平均交并比)
    • 结果:SPDFusion 的 mIoU 显著高于其他对比方法(如 TarDAL, SeAFusion)。这直接证明了引入语义先验对于提升机器感知能力的有效性。

总结:SPDFusion 是一篇典型的High-level 指导 Low-level的论文。它跳出了“为了融合而融合”的怪圈,真正从应用(分割)的角度反推融合算法的设计。对于做多任务联合学习语义辅助增强的同学,这篇论文的架构设计非常有借鉴意义。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/20 1:07:29

JBoltAI AI应用中台:重塑企业智能化的统一基座与范式

在企业智能化转型进程中,“系统碎片化、数据孤岛、开发门槛高、能力难复用”等痛点,导致多数企业陷入“AI技术看得见、落地用不上”的困境。JBoltAI基于Java生态构建的AI应用中台,并非简单的工具集合,而是通过“统一基座标准化范式…

作者头像 李华
网站建设 2026/4/18 14:31:41

免费网站进阶!——InfinityFree创建数据库教程

💖InfinityFree 简介 InfinityFree是一个提供免费虚拟主机服务的平台。每个账户可创建3个站点,支持自定义域名(需使用其提供的二级域名) 1 ⭐创建网站详见另一篇博客: /* by 01130.hk - online tools website : 01130.…

作者头像 李华
网站建设 2026/4/17 14:10:22

学长亲荐2026专科生必用TOP10AI论文工具测评

学长亲荐2026专科生必用TOP10AI论文工具测评 2026年专科生论文写作工具测评:为何需要一份精准指南? 随着AI技术的不断进步,越来越多的专科生开始借助AI工具提升论文写作效率。然而,面对市场上琳琅满目的论文辅助软件,如…

作者头像 李华
网站建设 2026/4/17 23:31:35

【C++】哈希扩展——位图和布隆过滤器的介绍与实现

【C】哈希扩展——位图和布隆过滤器的介绍与实现(2026年实用版) 哈希扩展是数据结构中的高频话题,尤其在海量数据场景(如缓存、去重、搜索)。位图(Bitmap) 和 布隆过滤器(Bloom Fil…

作者头像 李华
网站建设 2026/4/17 22:50:26

YOLO26 接入实时视频

1. 创建环境conda create --name yolo_new python3.102. 安装 yolopip install -U ultralytics3. 编写获取视频代码1. 环境:MacOS iphone 摄像头2. 导入相应的头文件import cv2 from ultralytics import solutions2. 获取摄像头def open_iphone_camera_with_cv():&…

作者头像 李华