一、本文介绍
本文记录的是利用PolaLinearAttention极性感知线性注意力模块优化RT-DETR的目标检测网络模型。
PolaLinearAttention通过Q/K极性分解、双路可学习符号加权融合与可学习幂函数降熵结合,在保持线性复杂度的同时完整恢复Query-Key正负交互并生成低熵尖锐注意力。本文利用PolaLinearAttention模块,先将查询与键分解为正负分量建模全符号交互,再以可学习矩阵自适应加权同符号与反符号贡献,通过可学习幂函数降低注意力分布熵,对关键目标特征进行精准聚焦、抑制无效均匀权重与背景噪声干扰,在注意力建模阶段实现完整特征关系与低熵尖锐分布的高效兼顾,摆脱传统线性注意力信息丢失与Softmax二次复杂度缺陷,显著提升视觉Transformer在分类、检测、分割任务中的精度与效率。
专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
文章目录
- 一、本文介绍
- 二、PolaLinearAttention 介绍
- 2.1 设计出发点
- 2.2 模块结构
- 2.3 模块优势
- 三、PolaLinearAttention的实现代码
- 四、创新模块
- 4.1 改进点1⭐
- 4.2 改进点2⭐
- 4.2 改进点3⭐
- 五、添加步骤
- 5.1 修改一
- 5.2 修改二
- 5.3 修改三
- 六、yaml模型文件
- 6.1 rtdetr-l版本
- 6.2 rtdetr-resnet50版本
- 6.3 rtdetr-resnet18版本
- 六、成功运行结果
二、PolaLinearAttention 介绍
2.1 设计出发点
传统线性注意力仅保留非负特征,丢失 Query-Key 负向交互信息,导致注意力图熵高、区分度差;且缺少类似 Softmax 的尖锐性,权重分布过于平均,表达能力弱于原版自注意力。因此提出极性感知线性注意力 PolaLinearAttention,完整保留正负交互并降低熵值。
2.2 模块结构
PolaLinearAttention(极性感知线性注意力)结构:
- 极性分解:将 Q、K 拆分为正、负分量,建模同符号(正正、负负)与反符号(正负、负正)全交互;
- 双路可学习融合:按通道拆分 V 为两路,分别处理同符号/反符号响应,用可学习矩阵G s G^sG