news 2026/4/23 0:42:06

即插即用系列(代码实践) | CVPR 2025 WPFormer:小波与原型增强Transformer——表面缺陷检测SOTA,专治弱缺陷与杂乱背景

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
即插即用系列(代码实践) | CVPR 2025 WPFormer:小波与原型增强Transformer——表面缺陷检测SOTA,专治弱缺陷与杂乱背景

论文题目:Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection

中文题目:用于像素级表面缺陷检测的小波与原型增强基于查询的 Transformer
应用任务:表面缺陷检测 (Surface Defect Detection)、工业异常检测、语义分割

论文原文 (Paper):https://openaccess.thecvf.com/content/CVPR2025/html/Yan_Wavelet_and_Prototype_Augmented_Query-based_Transformer_for_Pixel-level_Surface_Defect_CVPR_2025_paper.html
代码 (code):https://github.com/iefengyan/WPFormer

摘要
本文提取自CVPR 2024顶会论文《Wavelet and Prototype Augmented Query-based Transformer for Pixel-level Surface Defect Detection》。针对工业场景中微弱缺陷(Weak Defects)难以识别以及杂乱背景(Cluttered Backgrounds)干扰严重的痛点,复现了其核心组件——WPFormer中的WCAPCA模块。该架构创新性地将**小波变换(Wavelet Transform)引入 Transformer 的注意力机制中,利用频域信息分离噪声与边缘,同时利用原型(Prototype)**引导查询,实现了像素级的精准缺陷定位。


目录

    • 第一部分:模块原理与实战分析
      • 1. 论文背景与解决的痛点
      • 2. 核心模块原理揭秘
      • 3. 架构图解
      • 4. 适用场景与魔改建议
    • 第二部分:核心完整代码
    • 第三部分:结果验证与总结

第一部分:模块原理与实战分析

1. 论文背景与解决的痛点

在工业视觉检测中,我们经常面临两个极端难题:

  • 隐形杀手(弱缺陷):很多划痕、裂纹对比度极低,和背景几乎融为一体,普通的 CNN 或 Transformer 根本“看”不见。
  • 由于背景太花(杂乱背景):工业表面往往有复杂的纹理(如织物、金属拉丝),这些纹理在特征提取时会被误判为缺陷,导致大量虚警(False Positive)。

痛点总结:现有的 Query-based 方法(如 Mask2Former)虽然强,但缺乏对频率信息类别语义中心的显式建模,导致在困难样本上表现不佳。

2. 核心模块原理揭秘

WPFormer 提出了D2T Decoder (Dual-domain Two-stage Decoder),其中包含两个核心注意力模块。我已将其封装为即插即用的 PyTorch 类:

  • WCA (Wavelet-enhanced Cross-Attention) - 小波增强交叉注意力

  • 核心逻辑:利用离散小波变换 (DWT)将特征图分解为低频(LL)和

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 5:51:29

Streamlit+UNet双驱动:cv_unet_image-colorization交互界面开发与部署

StreamlitUNet双驱动:cv_unet_image-colorization交互界面开发与部署 1. 项目概述 你是否曾经翻出家里的老照片,看着那些黑白影像,想象它们如果有了颜色会是什么样子?现在,借助人工智能技术,这个想象可以…

作者头像 李华
网站建设 2026/4/18 20:35:54

AI销冠系统是什么?数字员工如何在数字化转型中提升企业效能?

数字员工在企业中能够有效优化业务流程,降低成本并提升整体效率。通过运用AI销冠系统,数字员工自动化处理大量重复性任务,如外呼客户和处理反馈。这种自动化不仅减轻了人力负担,而且使得企业能在短时间内完成更多工作。此外&#…

作者头像 李华
网站建设 2026/4/18 14:46:19

邀请他人管理仓库的链接地址

第一步点击右上角我的头像下拉框,然后选择我的仓库,选择要管理的仓库,然后选择仓库成员管理,然后选择开发者,然后选择邀请用户,复制链接就可以了1 问题2 解决方案

作者头像 李华
网站建设 2026/4/18 6:04:52

零基础玩转浦语灵笔2.5-7B:图文问答实战指南

零基础玩转浦语灵笔2.5-7B:图文问答实战指南 1. 前言:开启多模态AI之旅 你是否曾经想过,让AI不仅能看懂图片,还能回答关于图片的各种问题?比如上传一张风景照,问"图片中有哪些建筑风格?&…

作者头像 李华
网站建设 2026/4/19 22:23:51

MiniCPM-V-2_6多语言支持实测:中英德法意韩图文理解对比分析

MiniCPM-V-2_6多语言支持实测:中英德法意韩图文理解对比分析 1. 引言:多语言视觉理解的新标杆 当我们面对一张包含多种语言的图片时,能否准确理解其中的内容?这正是MiniCPM-V-2_6要解决的核心问题。作为MiniCPM-V系列的最新成员…

作者头像 李华
网站建设 2026/4/21 9:40:27

惊艳效果!Fish Speech 1.5跨语言语音合成案例展示

惊艳效果!Fish Speech 1.5跨语言语音合成案例展示 1. 引言:语音合成的新突破 你是否曾经想过,只需要一段10秒钟的语音样本,就能让AI用同样的声音说出任何语言?这听起来像是科幻电影中的场景,但Fish Speec…

作者头像 李华