news 2026/7/5 15:16:39

(论文速读)CWNet:用于微光图像增强的因果小波网络

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
(论文速读)CWNet:用于微光图像增强的因果小波网络

论文题目:CWNet: Causal Wavelet Network for Low-Light Image Enhancement(用于微光图像增强的因果小波网络)

会议:ICCV2025

摘要:传统的微光图像增强(LLie)方法主要关注均匀的亮度调整,往往忽略了实例级的语义信息和不同特征的内在特征。为了解决这些局限性,我们提出了一种利用小波变换进行因果推理的新型结构--CWNet(因果小波网络)。具体地说,我们的方法包括两个关键部分:1)受因果关系干预概念的启发,我们采用因果推理的观点来揭示微光增强中潜在的因果关系。从全局的角度来看,我们使用度量学习策略来确保因果嵌入遵循因果原则,将它们与非因果混淆因素分开,同时关注因果因素的不变性。在局部层次上,我们引入了实例级的裁剪语义损失来精确地维护因果因素的一致性。2)在因果分析的基础上,提出了一种基于小波变换的主干网络,该网络有效地优化了频率信息的恢复,确保了针对小波变换特定属性的精确增强。大量的实验表明,CWNet在多个数据集上的性能显著优于当前最先进的方法,展示了其在不同场景中的健壮性能。


CWNet:用因果推理和小波变换重新定义低光照图像增强

一、论文指出的问题

在深入介绍 CWNet 之前,我们先梳理一下这篇论文的出发点——现有方法存在哪些核心局限。

1.1 忽视实例级语义信息

传统低光照增强(LLIE)方法的目标几乎全部集中在均匀亮度调整上,不论是 gamma 校正、Retinex 理论还是直方图均衡化,都把图像视为一个整体来提亮。深度学习方法虽然有所改进,但同样缺乏对实例级语义信息的建模。论文通过 ATE(平均处理效应)热力图分析直观地证明了这一点:不同语义区域(如天空、建筑、植被)对光照退化的敏感程度差异显著,但现有方法对所有区域一视同仁。

【此处配图:图2— ATE 热力图分析。展示 Ground Truth、光照退化样本、颜色异常样本,以及对应的 ATE 热力图,亮度越高代表该区域对退化越敏感。】

1.2 频率域特征利用不充分

基于频率域的方法是 LLIE 的重要分支。论文指出当前方法存在两类问题:

  • 基于傅里叶变换的方法(如 FourLLIE、DMFourLLIE)擅长捕获全局低频信息、整体提亮,但缺乏空间局部性,难以保留边缘和纹理等高频细节,往往"亮了但糊了"。
  • 基于小波变换的方法(如 Wave-Mamba)虽然具有优秀的空间局部性,能够分离图像内容和噪声,但没有充分利用小波频域各子带的独特特性(水平、垂直、对角高频分量各有不同的物理意义),限制了恢复潜力。

1.3 颜色和语义一致性难以保证

许多先进方法在提升亮度的同时,会出现颜色偏移或语义失真。虽然部分工作(如 SKF)引入了语义分割网络来辅助增强,CLIP 也被一些方法用于语义引导,但这些方法只关注全局语义一致性,缺乏实例级(instance-level)的精细一致性保障


二、CWNet 的核心创新

针对上述三大问题,CWNet 提出了两条主线创新,共同构成一个有机整体。

2.1 创新一:面向 LLIE 的因果推理框架

这是本文最具理论深度的贡献。

2.1.1 结构因果模型(SCM)

论文首先为 LLIE 任务建立了一个结构因果模型(Structural Causal Model, SCM)。在这个框架下,图像的特征被分为两类:

  • 因果因子 S(Causal Factors):语义信息,如物体的形状、结构、纹理——这是增强过程中应当保持不变的;
  • 非因果因子 U(Non-Causal Factors):亮度异常和颜色偏移——这是增强过程中应当被过滤掉的。

【此处配图:图1— LLIE 的结构因果模型(SCM)。展示因果因子 S 与非因果因子 U 的关系,以及干预(Intervention)操作。】

2.1.2 有意义且无害的因果干预

为了让因果分析具有实际操作性,论文设计了两种施加在正常光照图像上的合成退化干预:

光照退化干预:基于物理照明退化模型,对正常光图像 I 生成低光版本:

其中 L 是通过 LIME 生成的光照图,控制退化程度,是均值为 0、方差在之间的高斯噪声。这种方式在保留语义内容的同时实现了真实的亮度变化。

颜色异常干预:对正常光图像施加色调偏移()、饱和度偏移()和 RGB 通道偏移():

【此处配图:图3(a)— 因果引导的度量学习策略。展示潜在空间中 Anchor(低光处理图)、Positive(正常光参考)、颜色退化负样本(蓝色)、光照退化负样本(橙色)的组织方式,以及 Push/Pull 操作。】

2.1.3 因果引导的度量学习(全局一致性)

基于上述干预,论文设计了因果引导的度量学习策略来实现全局因果一致性:

  • 锚点(Anchor):经过网络处理的低光图像;
  • 正样本(Positive):与锚点对应的正常光参考图(共享相同的因果语义因子);
  • 负样本:对不同场景的正常光图像施加颜色扰动(颜色退化负样本)或亮度扰动(光照退化负样本)生成的反事实样本。

这种策略刻意排除其他低光图像作为负样本,防止模型混淆因果特征和非因果特征,迫使模型专注于辨别根本性的语义差异。度量损失定义为:

其中归一化光照和颜色负样本的贡献。

2.1.4 实例级 CLIP 语义损失(局部一致性)

全局度量学习无法处理 ATE 分析揭示的区域级敏感性差异。因此,论文引入了实例级 CLIP 语义损失来保障局部一致性:

  1. 使用在 PASCAL-Context 上预训练的 HRNet 对增强结果提取语义实例分割图
  2. 每个实例子图与可学习的文本提示一起送入 CLIP 编码器计算语义相似度分数;
  3. 用交叉熵损失优化,使增强后的每个实例在语义空间中向正常光靠拢:

【此处配图:图3(b)— 实例级 CLIP 语义损失。展示 HRNet 分割 → 实例子图 → CLIP 编解码器 → 相似度分数的完整流程。】


2.2 创新二:因果小波网络(CWNet)主干

基于 SCM 的分析,论文设计了 CWNet 作为实现因果一致性的"药方"(论文用一个有趣的类比:低光图像是患者,网络主干是药物,因果分析是精密的测量仪器)。

【此处配图:图4— CWNet 整体架构图。展示从的完整流程,包括下采样层、HFRB(含 FE、HFEB、LFEB)和上采样层。】

CWNet 采用类 U-Net 结构,核心模块是层次特征恢复块(Hierarchical Feature Restoration Block, HFRB),包含三个子模块:特征提取(FE)、高频增强块(HFEB)、低频增强块(LFEB)。

2.2.1 特征提取(FE)

对输入低光图像进行小波变换(WT),分解为四个频率子带:

其中分别代表低频分量、水平/垂直/对角高频分量。

FE 的设计充分考虑了各子带的物理特性:

  • 高频子带(H, V, D):用深度可分离卷积(DepthConv)提取,捕获方向性边缘细节;
  • 低频子带(L):用WTConv(小波卷积)处理,在不增加参数量的前提下获得更大感受野;
  • 关键的跨频率补偿:低频特征通过方向专用卷积(H-Conv、V-Conv、D-Conv)分别补充到各高频子带:

这一设计基于一个重要观察:在低光场景下,高频细节(边缘、纹理)的信息大量"藏"在低频分量中,通过低频引导高频提取可以有效补偿缺失信息。

2.2.2 高频增强块(HFEB)

论文受State Space Model(SSM)/ Mamba启发,提出HF-Mamba处理高频子带。

现有大多数方法(如 Wave-Mamba、RetinexMamba)直接沿用 VMamba 的通用 2D-SSM 结构扫描所有方向,论文认为这没有充分利用小波高频分量的方向性特性。CWNet 专门设计了:

  • H-2D-SSM:水平方向扫描处理
  • V-2D-SSM:垂直方向扫描处理
  • D-2D-SSM:对角方向扫描处理

这种"扫描方向与小波高频分量方向一致"的设计,使高频细节的恢复更加精准。

2.2.3 低频增强块(LFEB)

HFEB 完成高频增强后,先用逆小波变换(IWT)重建图像:

重建图像作为 LFEB 的输入。LFEB 由两个残差块构成,均采用**快速傅里叶卷积(FFC)**以获得更大感受野:

  • 第一个残差块:5×5 卷积扩展感受野 + SimpleGate 高效激活 + 1×1 卷积恢复维度;
  • 第二个残差块:1×1 卷积将通道数扩至 4 倍 + SimpleGate + 1×1 卷积压缩回原始通道数。

最终,低频分量在高频分量的引导下得到精细化,生成增强预测结果 $I_{pre}$。


2.3 总损失函数

CWNet 的总损失由五部分组成:

各权重设置为

  • :L2 重建损失(像素级保真);
  • :结构相似性损失(结构保真);
  • :VGG 感知损失(视觉质量);
  • :因果度量学习损失(全局语义一致性);
  • :实例级 CLIP 语义损失(局部语义一致性)。

三、实验结果

3.1 训练设置

  • 框架:PyTorch,端到端训练;
  • 架构:类 U-Net,特征通道数 16,低频/高频分支的非对称块配置分别为 [1,3,4,3,1] 和 [1,2,2,2,1];
  • 数据增强:随机裁剪至 256×256,随机水平/垂直翻转和旋转;
  • 优化器:Adam(),初始学习率
  • 训练量iterations,batch size = 8;
  • 测试数据集:LOL-v1、LOL-v2-Real(用 LOL-v1 训练的模型测试,验证跨数据集泛化)、LOL-v2-Syn、LSRW-Huawei。

3.2 定量对比

【此处配表:表1— 在 LOL-v1、LOL-v2-Real、LOL-v2-Syn、LSRW-Huawei 四个数据集上与传统方法、CNN 方法、频率域方法、Transformer 方法、Mamba 方法的 PSNR/SSIM/LPIPS 全面对比,以及参数量(M)和 FLOPs(G)。】

核心数据一览:

数据集PSNRSSIMLPIPS
LOL-v123.60 dB0.84960.0648
LOL-v2-Real(跨数据集)27.39 dB0.9005(最优)0.0383(最优)
LOL-v2-Syn25.50 dB0.9362(最优)0.0195(最优)
LSRW-Huawei21.50 dB0.63970.1562(最优)

参数与计算效率:仅1.23M 参数11.3G FLOPs,在所有深度学习方法中属于最轻量级别。显著优于 MIRNet(31.79M 参数,785.1G FLOPs)和 SNR-Aware(39.12M 参数,26.35G FLOPs)。

特别值得注意的是 LOL-v2-Real 的跨数据集结果:用 LOL-v1 训练的模型直接在 LOL-v2-Real 上测试,取得最优 SSIM(0.9005)和最低 LPIPS(0.0383),充分证明了因果推理框架带来的强泛化能力。

3.3 定性可视化对比

【此处配图:图5— LOL-v2-Real 数据集上与 FECNet、FourLLIE、Wave-Mamba、Retinexformer、SKF-SNR、UHDFormer、UHDFour 的视觉对比。】

【此处配图:图6— LSRW-Huawei 数据集上与 FECNet、FourLLIE、Wave-Mamba、Retinexformer、SKF-SNR、UHDFormer、DMFourLLIE 的视觉对比。】

在视觉效果上,对比方法普遍存在以下问题:

  • FECNet、FourLLIE、Wave-Mamba:颜色偏差和噪声;
  • Retinexformer、SKF-SNR:提亮不足;
  • UHDFormer、UHDFour:表现较好但仍有噪声伪影,缺乏平滑性。

CWNet 产生的结果更清晰、自然、平滑,颜色和语义更为一致。


四、消融实验

4.1 组件消除实验

表2(上半部分)— 逐个去除因果推理机制、FE、HFEB、LFEB 在 LSRW-Huawei 上的性能变化。】

各组件对 PSNR 的贡献:

去除组件PSNR下降幅度
完整 CWNet21.53
去除因果推理20.87-0.66 dB(最大)
去除 FE20.98-0.55 dB
去除 HFEB20.58-0.95 dB
去除 LFEB20.41-1.12 dB(影响最大)

LFEB 的去除导致最大幅度的性能下降(PSNR 降至 20.41 dB),说明低频处理在整个双分支架构中扮演着最关键的角色。

4.2 组件替换实验

表2(下半部分)— 用标准卷积替换 WTConv/FFTConv,用 VMamba 替换 HF-Mamba,用全局特征替换语义图的性能对比。】

替换方案PSNR说明
WTConv → 标准卷积21.42频率域处理有效
FFTConv → 标准卷积21.36全局感受野有效
HF-Mamba → VMamba 2D-SSM21.20方向对齐扫描有效
语义图 → 全局特征21.48实例级一致性有效

4.3 损失权重分析

【此处配表:表3— 系统变化各损失权重()的消融实验,含 6 种配置 A~F 的 PSNR/SSIM/LPIPS 对比。】

基线配置()取得最优 PSNR(21.53)和次优 SSIM(0.6423)。实验表明:

  • 增大(CLIP 语义损失权重至 0.05)会导致 PSNR 明显下降至 20.89,说明过度强调语义约束会损害像素级重建质量;
  • 的权重对最终结果敏感,0.01 是最优选择。

五、局限性与失败案例

【此处配图:图7— 多退化场景下的失败案例。展示同时存在模糊或雾霾时,CWNet 与 Retinexformer、RetinexMamba、Wave-Mamba、UHDFormer 的对比。】

论文坦诚地指出,当图像同时面临多种退化(如低光 + 模糊、低光 + 雾霾)时,CWNet 虽然在亮度和颜色保持上优于对比方法,但整体恢复质量不理想。这为后续研究指明了方向:如何在多退化条件下实现更有效的低光图像恢复。


六、因果与小波的哲学连接

【此处配图:图8— 小波结构与因果推理的类比图。因果推理 ≈ 精密测量仪器,低光图像 ≈ 患者,网络主干 ≈ 药物。】

论文用一个生动的类比来解释 CWNet 的可解释性:

  • 低光图像是需要治疗的患者;
  • 因果推理机制是精密的测量仪器,确保治疗精准定位到问题所在(分离因果因子和非因果因子);
  • 小波网络主干是药物,其架构设计直接决定治疗效果——低频增强负责颜色和亮度一致性,高频 Mamba 一致性扫描负责细节建模和结构一致性。

七、总结与思考

CWNet 的核心贡献可以归结为一句话:用因果推理"想清楚了该做什么",再用小波网络"精准地做到"

从研究方法论的角度看,这篇论文有几点值得特别关注:

  1. 理论驱动的框架设计:引入 SCM 和 ATE 分析不仅仅是方法的"包装",而是真正指导了网络架构(为什么需要实例级而非全局语义损失)和训练策略(为什么要构造特定类型的负样本)的设计。

  2. 轻量与高性能的平衡:1.23M 参数和 11.3G FLOPs 的代价换来了多数据集 SOTA,这得益于小波变换天然的高效性(下采样减少空间维度)和 Mamba 相比 Transformer 的线性计算复杂度。

  3. 跨数据集泛化的意义:在 LOL-v2-Real 上的跨数据集测试(用 LOL-v1 训练)取得最优 SSIM 和 LPIPS,这是对因果推理框架"分离不变因果特征"这一核心目标最直接的验证。

  4. 局限性的坦诚:论文没有回避多退化场景下的失败案例,这种学术诚实值得肯定,也为后续研究留下了清晰的开放问题。


如果你对低光照图像增强、因果推理在视觉任务中的应用,或者 Mamba/SSM 模型有兴趣,欢迎进一步探讨。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/5 15:16:22

BilibiliDown:打破平台限制,轻松构建个人B站视频资源库

BilibiliDown:打破平台限制,轻松构建个人B站视频资源库 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/…

作者头像 李华
网站建设 2026/7/5 15:14:10

题解:洛谷 B4495 [GESP202603 一级] 交朋友

【题目来源】 洛谷:B4495 [GESP202603 一级] 交朋友 - 洛谷 【题目描述】 Alice 班上共有 4 个小朋友,身高分别为 H1H_1H1​, H2H_2H2​, H3H_3H3​, H4H_4H4​,其中 Alice 的身高为 H1H_1H1​。Alice 想要和身高最接近她的人交朋友&#…

作者头像 李华
网站建设 2026/7/5 15:07:49

Leetcode刷题python3版第一周(下)

Day5 LeetCode 150、逆波兰表达式求值(中等√) 根据 逆波兰表示法,求表达式的值。 有效的算符包括 、 - 、 * 、 / 。每个运算对象可以是整数,也可以是另⼀个逆波兰表达式。 注意 两个整数之间的除法只保留整数部分。 可以保证…

作者头像 李华
网站建设 2026/7/5 15:07:39

电脑省电技巧:从日常设置到硬件优化的实战指南

很多笔记本用户都有过这样的尴尬时刻:明明出门前电量是满的,结果在高铁上刚打开文档没多久,系统就弹窗提示电量不足;或者在会议室演示 PPT 时,风扇突然狂转,不仅噪音扰人,电量也如流水般下降。这…

作者头像 李华
网站建设 2026/7/5 15:06:39

3分钟掌握uesave:轻松解锁Unreal引擎游戏存档编辑自由

3分钟掌握uesave:轻松解锁Unreal引擎游戏存档编辑自由 【免费下载链接】uesave Rust library and CLI to read and write Unreal Engine save files 项目地址: https://gitcode.com/gh_mirrors/ue/uesave 你是否曾经面对Unreal引擎游戏的神秘二进制存档束手无…

作者头像 李华