news 2026/4/25 13:14:54

【厦门大学-涂晓彤组-AAAI26】用于通用图像融合的自监督多路共识Mamba

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【厦门大学-涂晓彤组-AAAI26】用于通用图像融合的自监督多路共识Mamba

文章:Self-supervised Multiplex Consensus Mamba for General Image Fusion

代码:暂无

单位:厦门大学


一、问题背景:现有图像融合技术的三大痛点

  1. 任务适配性差:多数方法是“专才”而非“通才”,只能处理红外-可见光融合、医疗图像融合等单一任务,无法灵活应对多聚焦、多曝光等不同场景的融合需求。

  2. 细节捕捉不足:深度学习方法普遍存在“低频偏好”,难以精准捕捉图像的高频细节(如纹理、边缘),导致融合结果视觉质量不佳,影响后续任务效果。

  3. 效率与效果失衡:CNN擅长捕捉局部特征但缺乏全局视野,Transformer能建模全局依赖但计算量呈二次增长,现有技术难以兼顾融合效果与运行效率。

同时,不同融合任务虽目标各异,但核心需求一致——保留高频细节与结构信息,这为通用图像融合框架的研发提供了切入点。

二、方法创新:SMC-Mamba的四大核心设计

SMC-Mamba(Self-supervised Multiplex Consensus Mamba)以“通用、高效、细节丰富”为目标,整合三大核心模块与创新扫描机制,实现全方位突破:

1. MAFE模块:细节与全局“两手抓”

  • 局部分支:通过自适应门控机制,精准提取图像的局部精细特征,不放过纹理、边缘等高频细节。

  • 全局分支:结合空间-通道扫描与频率-旋转扫描,高效建模全局上下文信息,同时捕捉图像的频率域关系,避免“只见树木不见森林”。

  • 最终将局部与全局特征融合,实现“局部精准+全局统筹”的特征增强效果。

2. MCCM模块:多专家协作的“智能团队”

  • 构建4个跨模态Mamba专家网络,每个专家擅长不同的融合策略,能应对不同场景的融合需求。

  • 通过门控网络自适应选择最优的2个专家参与融合,引入可学习噪声保证专家选择的平衡性,避免“一家独大”。

  • 设计负载均衡损失、专家多样性损失与共识损失,既鼓励专家各展所长,又确保最终融合结果的一致性与可靠性。

3. BSCL损失:自监督增强高频细节

  • 无需人工标注,通过特征级与像素级的对比学习,让融合图像的高频成分向原始图像靠拢,同时与低频成分拉开距离。

  • 在不增加计算量的前提下,强化高频细节保留,让融合结果更清晰、更贴近真实场景。

4. 跨模态扫描:打破模态壁垒

  • 创新设计空间-通道交互扫描与跨模态双向扫描,强化不同模态图像间的特征交互,实现互补信息的无缝整合。

  • 解决了传统扫描方式忽略跨模态依赖的问题,让融合过程更顺畅、结果更自然。

三、实验结果:全面超越现有SOTA方法

团队在红外-可见光、医疗、多聚焦、多曝光四大融合任务中,与IFCNN、SwinFusion等20余种主流方法进行了对比,结果堪称“碾压级”:

1. 定量指标领先

  • 红外-可见光融合任务:在MSRS数据集上, mutual information(信息交互)达4.490,spatial frequency(空间频率)达12.211,均位列第一;

  • 多聚焦融合任务:在MFI-WHU数据集上,spatial frequency高达35.669,平均梯度(AG)达10.929,远超其他方法;

  • 所有任务中,SMC-Mamba在 mutual information、空间频率、结构相似度等核心指标上均保持领先。

2. 视觉效果出色

  • 红外-可见光融合中,仅SMC-Mamba能清晰突出行人等目标;

  • 多聚焦融合中,可精准保留栏杆棱角、旗帜纹路等细节,同时维持色彩真实性;

  • 下游任务增益明显:在语义分割任务中,mIoU值达79.3%,能精准分割车辆、路边区域等目标,优于所有对比方法。

3. 效率优势显著

  • 模型参数仅0.149M,计算量46.105G FLOPs,推理时间288.545ms,远低于Transformer类方法,甚至优于部分CNN方法,兼顾轻量化与高效性。

四、优势与局限

核心优势

  1. 通用性强:无缝适配红外-可见光、医疗、多聚焦、多曝光四大融合任务,无需针对特定任务调整架构。

  2. 细节丰富:通过MAFE模块与BSCL损失,大幅提升高频细节保留能力,融合结果视觉质量更高。

  3. 效率优异:基于Mamba的线性复杂度特性,结合动态专家选择机制,实现“效果优+速度快”的双重优势。

  4. 下游友好:融合结果能为目标检测、语义分割等下游任务提供更优质的输入,显著提升下游任务性能。

现存局限

  1. 专家数量(当前为4个)与选择策略的优化空间:可进一步探索专家数量与任务复杂度的匹配关系,提升自适应能力;

  2. 极端场景适应性:在低光照、强噪声等极端条件下的融合效果,仍需进一步验证与优化;

  3. 实时性落地:虽已具备较高效率,但在嵌入式设备等资源受限场景下的实时运行能力,需进一步提升。

五、一句话总结

SMC-Mamba通过多专家协作、自监督细节增强与创新扫描机制,成功突破现有图像融合技术的任务适配、细节捕捉与效率平衡难题,为红外-可见光、医疗、多聚焦等多场景融合提供了高效通用的解决方案,同时为下游视觉任务提供更强支撑。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 5:26:01

YOLO-v8.3模型蒸馏指南:云端GPU师生模型同训

YOLO-v8.3模型蒸馏指南:云端GPU师生模型同训 你是否也遇到过这样的问题:训练一个高精度的YOLO-v8.3大模型效果很好,但部署到边缘设备上时速度慢、资源吃紧?而轻量级小模型虽然跑得快,准确率却总是差那么一截。有没有一…

作者头像 李华
网站建设 2026/4/25 5:25:28

Qwen2.5多轮对话实现:messages格式实战详解

Qwen2.5多轮对话实现:messages格式实战详解 通义千问2.5-7B-Instruct大型语言模型 二次开发构建by113小贝。Qwen2.5 是最新的 Qwen 大型语言模型系列,针对实际应用场景进行了深度优化。对于 Qwen2.5,我们发布了从 0.5 到 720 亿参数的多个基…

作者头像 李华
网站建设 2026/4/25 5:26:00

PyTorch 2.6性能优化实战:云端GPU按需测试不浪费

PyTorch 2.6性能优化实战:云端GPU按需测试不浪费 你是不是也遇到过这样的情况:算法团队正在紧锣密鼓地调优一个深度学习模型,本地训练跑一次要几个小时,迭代效率低得让人抓狂?买一台高性能服务器吧,又只用…

作者头像 李华
网站建设 2026/4/25 5:26:00

2010-2025年上市公司国地税改革数据DID

数据简介 本数据以张浩天和卢盛峰(2025)《国地税机构合并与政府补助策略性调整》研究框架为参考,构建上司公司国地税改革DID虚拟变量。国地税合并的核心目标之一是提升税收治理效能,降低征纳成本,优化营商环境。然而&a…

作者头像 李华
网站建设 2026/4/25 5:26:17

通义千问3-4B功能测评:4GB内存跑出30B级性能

通义千问3-4B功能测评:4GB内存跑出30B级性能 1. 引言:小模型时代的性能跃迁 近年来,大模型的发展逐渐从“参数军备竞赛”转向端侧部署与能效比优化。在这一趋势下,阿里于2025年8月开源的 通义千问3-4B-Instruct-2507&#xff08…

作者头像 李华
网站建设 2026/4/25 5:24:59

Qwen3-VL-2B金融应用案例:财报图表理解系统部署实操

Qwen3-VL-2B金融应用案例:财报图表理解系统部署实操 1. 引言 1.1 业务场景描述 在金融分析与投资决策过程中,企业发布的年度报告、季度财报等文档中通常包含大量关键信息以图表形式呈现,如利润趋势图、资产负债结构饼图、现金流量柱状图等…

作者头像 李华