news 2026/6/26 2:23:40

这篇文章旨在解决多模态3D检测中稀疏检测器的性能问题。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
这篇文章旨在解决多模态3D检测中稀疏检测器的性能问题。

全文总结

元宝

研究背景

  1. 研究问题:

    这篇文章旨在解决多模态3D检测稀疏检测器的性能问题。尽管稀疏检测器在计算成本和下游任务适应性方面优于基于鸟瞰图(BEV)的检测器,但现有的稀疏检测器忽略了token表示的质量,导致前景质量不佳和性能有限。

  2. 研究难点:

    该问题的研究难点在于如何提高稀疏检测器中token的质量,特别是在几何结构和类别分布方面的优化。现有的token采样策略依赖于简单的top-k操作,容易导致小物体token的丢失和对象边界的缺失。

  3. 相关工作:

    现有工作主要包括基于LiDAR的3D检测、基于相机的3D检测和多模态3D检测。基于LiDAR的检测器利用点云的几何信息进行精确定位,而基于相机的检测器则通过多视图图像捕捉丰富的语义信息。多模态3D检测方法通过融合LiDAR和相机数据,利用两者的互补优势来提高检测性能。

研究方法

本文提出了一种名为CrossRay3D的稀疏多模态检测器,主要通过Sparse Selector (SS)模块来提高token采样的质量。具体方法如下:

  1. Sparse Selector (SS):

    • Ray-Aware Supervision (RAS): 通过在训练阶段恢复高几何信息,利用从光学中心到物体的射线作为对象结构导向的监督,生成高结构前景token。具体来说,RAS通过射线与地面真实框的交集来标记正负样本,并通过卷积操作进行token采样。

    • Class-balancedSupervision (CBS): 通过调整token的显著性权重,避免在token采样过程中丢失小物体token。CBS损失函数根据地面真实类别的分布重新加权token的显著性,公式如下:

      Wn​={λ,Sigmoid(max(y^​n,c​)),​ if n∈ distribution, otherwise,​

      其中,λ≥1是超参数,y^​n,c​是第n个token的类别概率分布。

  2. Ray Positional Encoding (Ray PE):

    • 为了解决图像和LiDAR数据之间的分布差异,提出了Ray PE,通过采样3D锚点沿射线生成位置编码,映射相机和BEV位置编码到统一的3D空间,实现多模态特征的直接交互。

  3. Decoder and Loss:

    • 使用标准的Transformer解码器,通过Ray PE和潜在空间,查询与多模态稀疏token直接交互,预测3D边界框。损失函数包括CBS损失、分类损失和回归损失,公式如下:

      L=ω1​Lt​+Lcls​(c,c^)+Lreg​(b,b^),

      其中,ω1​是平衡CBS损失的超参数。

实验设计

  1. 数据集:

    • 实验在nuScenes数据集上进行,该数据集包含1000个场景,分为训练集、验证集和测试集,分别包含700、150和150个场景。每个场景包含6个摄像头和1个LiDAR传感器的数据。

  2. 评估指标:

    • 使用官方的nuScenes指标,包括nuScenes Detection Score (NDS)、mean Average Precision (mAP)、mean Average Translation Error (mATE)等。

  3. 实现细节:

    • 图像特征提取使用ResNet50,LiDAR特征提取使用3D稀疏骨干网络。模型在2个A40 GPU上训练20个epoch,批量大小为12。

结果与分析

  1. 主要结果:

    • 在nuScenes测试集上,CrossRay3D达到了74.7%的NDS和72.4%的mAP,超过了现有的最先进方法,并且在推理速度上是其他领先方法的两倍。

    • 在nuScenes验证集上,CrossRay3D也表现出色,特别是在处理遮挡和远距离小物体方面。

  2. 消融实验:

    • RAS的效果: 添加RAS后,CrossRay3D在NDS和mAP上分别提高了1.4%和1.6%,并且计算成本仅增加了0.1 FPS。

    • CBS的效果: CBS损失函数在类平衡监督方面表现出色,特别是在小物体(如障碍物和交通锥)的AP上提高了0.3%。

    • Ray PE的效果: 添加Ray PE后,mAP显著提高了9.3%,证明了其在稀疏特征表示中的有效性。

    • Token保留比例的影响: 减少保留的token数量可以降低计算负载,同时保持较高的检测精度。

总体结论

本文提出了CrossRay3D,一种端到端的稀疏多模态检测器,通过几何结构和类别分布的联合优化,实现了高质量的token采样。实验结果表明,CrossRay3D在nuScenes数据集上达到了最先进的性能,并且在计算效率和鲁棒性方面具有显著优势。未来的工作将集中在进一步优化骨干网络和探索不同模态的互补优势。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/25 22:33:37

2016 年在《财富自由革命之路》一书中的具体原文内容*贪婪、色欲、懒惰、嫉妒、暴食、傲慢、愤怒

你问到的是孙宇晨 2016 年在《财富自由革命之路》一书中的具体原文内容**,这属于仍受版权保护的书籍文本,而且是明确的“全文”请求,我不能逐字给出。 不过我可以完整、系统地为你还原他这一段思想的“原意版/讲法总结”,不逐字引…

作者头像 李华
网站建设 2026/6/25 17:33:38

大模型工程师入门必看:收藏!零基础也能轻松转行

文章指出大模型工程师门槛并非想象中高,多数公司招聘的是应用工程师而非算法研发。传统程序员通过掌握提示工程、RAG检索增强生成、模型微调和工程部署四大核心能力,可实现成功转型。作者提供了真实案例和学习路线图,强调当前是大模型转型的最…

作者头像 李华
网站建设 2026/6/24 22:42:16

【泛型实战进阶指南】:从文档读懂类型约束与边界设计

第一章:泛型的文档泛型是现代编程语言中提升代码复用性与类型安全的核心机制。它允许开发者编写可作用于多种数据类型的函数、结构体或接口,而无需重复定义逻辑。通过将类型参数化,程序在编译阶段即可捕获类型错误,避免运行时异常…

作者头像 李华
网站建设 2026/6/25 11:22:48

为什么你的空间转录组聚类结果不理想?R语言优化策略全公开

第一章:为什么你的空间转录组聚类结果不理想?空间转录组技术能够同时捕获基因表达与组织空间位置信息,但在实际分析中,聚类结果常因多种因素而表现不佳。理解这些潜在问题有助于提升分析的准确性与生物学可解释性。数据预处理不足…

作者头像 李华
网站建设 2026/6/26 0:26:55

年轻人实现高薪梦想指南:月薪75k+并非遥不可及,抓住机遇!

在数字技术狂飙突进的今天,人工智能正以颠覆性力量改写全球产业格局。 从ChatGPT掀起的自然语言处理革命,到DeepSeek在垂直领域的精准突破,再到国产大模型如雨后春笋般的迭代,人类正站在技术跃迁的关键节点。这场由数据与算法主导…

作者头像 李华
网站建设 2026/6/25 13:53:12

推荐一款新的自动化测试框架:DrissionPage

今天给大家推荐一款基于Python的网页自动化工具:DrissionPage。这款工具既能控制浏览器,也能收发数据包,甚至能把两者合而为一,简单来说:集合了WEB浏览器自动化的便利性和 requests 的高效率优点。 一、DrissionPage框…

作者头像 李华