论文标题:
DepthDark: Robust Monocular Depth Estimation for Low-Light Environments
发表日期: 2025年07月
作者: Longjian Zeng, Zunjie Zhu, Rongfeng Lu, Ming Lu, Bolun Zheng, Chenggang Yan, Anke Xue
发表单位: 杭州电子科技大学, Intel Labs China
原文链接: http://arxiv.org/pdf/2507.18243v1
1. 引言:低光环境下的深度估计挑战
单目深度估计是指从单张图像中推断出每个像素的深度信息,这项技术在自动驾驶、增强现实和机器人导航等领域有着广泛应用。然而,当环境光线变暗时,问题就变得复杂起来。
低光环境下,图像传感器接收到的光子数量急剧减少,为了获得可用的图像,相机不得不提高ISO感光度和延长曝光时间。但这带来了两个主要问题:
噪声放大高ISO设置会显著增加图像噪声,这些噪声会干扰深度估计模型对图像特征的理解
光度不一致夜间光源分布极不均匀,强光区域过曝而暗区细节丢失,这种极端的光度变化让模型难以准确估计深度
现有的解决方案大多针对特定场景(如夜间自动驾驶),缺乏通用的低光深度估计基础模型。Depth Anything和Depth Anything V2等模型在白天表现优异,但在低光条件下性能大幅下降。
2. 数据集生成:如何模拟真实的低光场景?
要训练一个强大的低光深度估计模型,首先需要大量高质量的配对数据(低光图像+对应的深度图)。但在现实世界中收集这样的数据集成本极高,于是DepthDark提出了一个巧妙的解决方案:低光数据集生成(LLDG)。
LLDG包含两个核心模块:
光晕模拟模块(FSM)
夜间图像最显著的特征就是各种光源产生的光晕效果。FSM模块从Flare7K数据集中随机采样光源,并将其合理地合成到白天的图像中。
为了让合成效果更真实,FSM还引入了随机暗化操作和自适应光源强度策略。具体来说,它使用Phong光照模型来计算最终的光晕图像:
Phong光照模型计算公式,其中表示最终的光晕图像,
是亮度缩放因子,
是伽马校正因子,
是光源数量。
噪声模拟模块(NSM)
低光图像的另一个特征是显著的噪声。NSM模块基于物理噪声模型,精确模拟夜间场景中的噪声分布。总体噪声N被分解为四个物理成分:
噪声分解公式,其中K是系统总增益,是光子散粒噪声,
是读取噪声,
是行噪声,
是量化噪声。最终的低光图像
就是光晕图像
加上噪声
:
图3.1:不同场景的配对视觉示例,I表示正常光照条件下的图像,I^F表示在正常光照图像上添加FSM后的可视化结果,I^FN表示在正常光照图像上同时添加FSM和NSM后的可视化结果
通过这两个模块的协同工作,DepthDark成功生成了包含74,000对高质量低光深度数据的大规模合成数据集,为后续的模型训练奠定了坚实基础。
3. 消融研究:各组件的有效性验证
为了验证各个组件的有效性,研究团队进行了系统的消融实验。这些实验不仅证明了每个模块的贡献,还展示了它们组合使用时的协同效应。
实验在nuScenes-Night和RobotCar-Night两个具有挑战性的数据集上进行,结果显示:
单独使用LLDG相比基线模型(Depth Anything V2)在nuScenes-Night数据集上的ABS rel误差从0.272降低到0.264,在RobotCar-Night上从0.235降低到0.183
单独使用LLPEFT在nuScenes-Night上ABS rel误差降低到0.255,在RobotCar-Night上降低到0.177
完整DepthDark结合两个模块后,在nuScenes-Night上达到0.210,在RobotCar-Night上达到0.157的优异性能
这些结果清晰地表明,LLDG和LLPEFT两个模块都对提升低光深度估计性能做出了重要贡献,而且它们组合使用时产生了1+1>2的效果。
研究团队还与其他参数高效微调方法进行了对比,包括AMFG(RobustSAM中使用的方法)和经典的LoRA模块。实验证明,DepthDark的LLPEFT策略在引入极少参数开销的情况下,达到了与其他先进方法相当甚至更好的性能。
这种优势主要来自于LLPEFT新颖的照明引导和多尺度特征融合机制,它们共同优化了照明感知和特征提取,有效解决了低光条件下的关键挑战。
4. 微调策略:光照引导与多尺度特征融合的创新
生成了高质量的低光数据集后,下一个挑战是如何高效地微调基础模型,使其在低光条件下表现出色。DepthDark提出了低光参数高效微调(LLPEFT)策略,核心是光照引导和多尺度特征融合。这就像给模型戴上了一副“夜视镜”,让它能在黑暗中看清世界。
低光图像的主要问题是什么?噪声放大和光度不一致!高ISO和长曝光会引入噪声,而不均匀的亮度会导致过曝或欠曝。LLPEFT策略通过两个创新组件来解决这些问题。
光照引导(Illumination Guidance)
光照引导的作用是简化低光图像的信息结构,让模型更容易处理。具体来说,它将低光图像转换为灰度表示,减少噪声并增强亮度分布。虽然会丢失颜色信息,但这对深度估计影响不大,因为颜色信息已经在原图中保留。光照引导项的计算公式如下:
图:光照引导计算公式,其中mean_c表示沿通道维度计算每个像素的平均值,LLDG(I)表示通过低光数据集生成模块处理后的图像
通过引入光照引导,模型可以专注于学习鲁棒的特征表示,从而减轻噪声放大、颜色失真和长曝光带来的伪影。
多尺度特征融合(Multiscale Feature Fusion)
多尺度特征融合的目的是将低光图像和光照引导图像从图像空间转换到特征空间,并提取全面的多级信息。这个过程就像是用不同的“镜头”观察同一场景,然后智能地组合这些视图。
首先,低光图像和光照引导图像沿通道维度拼接,形成低光辅助图像:
图:低光辅助图像计算公式,其中Concat表示拼接操作,I^FN是低光图像,I_g^FN是光照引导图像。然后,使用三个并行卷积层(核大小分别为1x1、3x3和5x5)提取多尺度特征:
图:多尺度特征提取公式,其中Conv表示卷积操作,E1、E2、E3分别是不同尺度的特征图
接下来,使用Softmax函数计算每个尺度特征的注意力权重,动态整合多尺度特征:
图:注意力权重计算公式,其中Softmax是softmax函数,W_i和b_i是可学习参数,α_i表示第i个尺度特征的重要性
融合后的特征表示通过加权求和得到:
图:特征融合公式,其中E_fused是融合后的特征
最后,使用1x1卷积层减少通道维度,生成最终的特征表示:
图:最终特征表示计算公式,其中Conv_1x1是1x1卷积操作
这个提取的低光特征图集成了低光输入图像和其光照引导图像的多级信息,为后续模块提供了可靠的特征支持。最终,这些特征和低光图像一起通过卷积层和视觉变换器生成深度图。
LLPEFT策略的优势在于它只引入了极少的参数开销(约0.009M参数),却显著提升了模型在低光条件下的鲁棒性。这就像给模型加了一个轻量级的“外挂”,既不增加太多负担,又大幅提升性能。
5. 实验结果:超越现有方法的性能表现
DepthDark在nuScenes-Night和RobotCar-Night两个挑战性数据集上进行了全面评估,结果令人印象深刻。不仅定量指标领先,定性结果也显示出明显的优势。
实验设置遵循标准协议,使用单个Nvidia RTX 3090 GPU进行训练,图像分辨率调整为518x518。对比方法包括直接训练(DT)和域适应(DA)方法,以及Depth Anything和Depth Anything V2等最先进模型。
图4.1:Table 4.1: 不同方法在nuScenes-Night和RobotCar-Night数据集上的定量结果,最佳结果加粗,次佳结果下划线
从定量结果来看,DepthDark在nuScenes-Night数据集上ABS rel误差达到0.210,在RobotCar-Night上达到0.157,全面领先其他方法。即使在完全未见过的数据集上,DepthDark也表现出优异的泛化能力。
值得注意的是,DepthDark的训练数据不包含自动驾驶领域的样本,但其在nuScenes-Night和RobotCar-Night上的表现却超过了专门为夜间自动驾驶设计的方法。这充分证明了LLPEFT策略的有效性。
图4.2:Figure 4.1: nuScenes-Night数据集上不同单目深度估计方法的定性比较结果,红色虚线框标示出DepthDark显著优势区域
图4.3:Figure 4.2: RobotCar-Night数据集上不同单目深度估计方法的定性比较结果,红色虚线框标示出DepthDark显著优势区域
定性结果显示,在低光条件下,其他方法产生的深度图与真实值有较大偏差,而DepthDark生成的深度图更加准确和清晰。即使在强噪声和显著光度失真的情况下,DepthDark仍然保持鲁棒。
消融实验进一步验证了各个组件的有效性。LLDG和LLPEFT模块单独使用都能提升性能,组合使用时效果更佳。
图4.4:Table 4.2: 提出模块的有效性消融研究,显示每个模块都增强了DepthDark的性能
此外,与其他参数高效微调方法(如AMFG和LoRA)的对比表明,LLPEFT在参数效率方面表现优异,几乎不增加参数开销却达到更好性能。
图4.5:Table 4.3: PEFT方法的全面消融研究,包括参数数量的定量分析
这些实验结果不仅证明了DepthDark的有效性,还展示了其在低光深度估计领域的领先地位。
未来展望:低光深度估计的新方向
DepthDark的成功为低光单目深度估计开辟了新的道路。未来,这个领域可能会朝着几个方向发展。
首先,数据合成技术的进一步优化。虽然LLDG模块已经能够生成高质量的低光图像,但仍有提升空间。例如,可以引入更复杂的光照模型和噪声模型,使合成图像更加逼真。
其次,微调策略的扩展。LLPEFT策略目前主要针对Depth Anything V2,但可以扩展到其他基础模型,如Marigold或未来的新模型。此外,可以探索更多的引导机制和融合技术。
第三,应用领域的拓宽。低光深度估计不仅限于自动驾驶,还可以应用于安防监控、医疗成像、太空探索等领域。未来研究可以针对这些特定场景进行优化。
最后,实时性和效率的提升。虽然DepthDark已经相当高效,但在移动设备或边缘设备上的实时应用仍需进一步优化。未来的工作可以专注于模型压缩和加速技术。
总之,DepthDark为低光深度估计提供了一个强大的基础,未来的研究可以在此基础上继续深化和扩展。