|编码方式|核心问题|通俗理解|输出||-----------|---------|----------|--------||Point-based|每个点怎么提特征|一个点一个点处理|点特征||Pillar|怎么快速变 BEV|地面划格子,柱子编码|BEV特征||Voxel|怎么保留3D结构|空间切小立方体|3D/BEV特征||Range-view|怎么变成图像形式|按扫描角度展开|range特征图||Radar BEV|怎么和其他模态对齐|雷达俯视图特征|BEV特征||Radar query|怎么主动引导融合|雷达告诉网络看哪里|query特征||方法|Query代表什么||------------|------------------||BEVFormer|BEV网格位置||DETR3D|潜在目标||PETR|潜在目标 + 3D位置编码||LSS/BEVDepth|不是query主导,而是深度投影主导||方法|核心思想|是否显式估深度|Query类型|你怎么记||------------------|--------------------------------------|----------------------|------------|--------------||LSS|估深度,把图像 lift 到3D再 splat 到BEV|是|无明显query主导|猜深度再铺BEV||BEVDepth|强化 LSS 的深度估计|是|无明显query主导|更准的LSS||BEVFormer|BEV query 去图像中采样|不强依赖显式深度|BEV query|BEV格子主动看图像||PETR|3D位置编码 + object query|不以depth distribution为主|object query|给图像特征加3D位置感||DETR3D|object query + 3D reference point投影取特征|否|object query|目标query去多相机找证据||depth distribution|每个像素的深度概率|是|不是query|图像转3D的深度桥梁|3D检测论文阅读速记: 一、雷达编码1. Point-based:逐点提特征,保留原始点属性。2. Pillar:x-y平面划柱子,快速生成BEV特征。3. Voxel:x-y-z三维体素划分,空间结构更细。4. Range-view:按角度展开成图像,用CNN编码。5. Radar BEV:雷达最终变成俯视图特征,用于融合。6. Radar query:用雷达生成查询,引导图像/BEV特征提取。 二、相机转BEV1. LSS:预测深度分布,把图像特征lift到3D再splat到BEV。2. BEVDepth:在LSS基础上强化深度估计和深度监督,添加了Lidar做深度监督。3. BEVFormer:BEV query主动到多视角图像里采样特征。4. DETR3D:object query通过3D reference point到图像中取特征。5. PETR:给图像特征加入3D位置编码,用object query预测3D框。6. depth distribution:每个像素在不同深度bin上的概率。7. camera query:由相机特征产生或主导的查询向量。 三、判断论文方法1. 有depth distribution/frustum/lift-splat:深度投影路线。2. 有BEV query/spatial cross-attention:BEVFormer路线。3. 有object query/reference point/decoder:DETR/PETR路线。4. 有pillar/scatter/pseudo image:PointPillars/BEV编码路线。5. 有voxel/sparse conv:Voxel路线。|类型|核心思想|通俗理解|是否需要anchor|常见代表||----------------|----------|-----------|----------|-------------------||anchor-based|预设框 + 修正|先撒框,再微调|需要|PointPillars、SECOND||anchor-free|直接预测目标|不撒框,直接找|不需要|FCOS类思想||center-based|预测目标中心点|先找中心,再回归框|不需要|CenterPoint||DETR query-based|query主动找目标|一堆query去找物体|不需要|DETR3D、PETR|