news 2026/1/8 18:11:31

SparseMeXt:解锁稀疏表示在高清地图构建中的潜力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SparseMeXt:解锁稀疏表示在高清地图构建中的潜力

一、引言

在自动驾驶领域,高清地图(HD Map)扮演着至关重要的角色,它为车辆提供了精确的道路几何结构和语义信息,是实现车辆定位、路径规划和决策控制的核心基础。与离线地图不同,在线高清地图能够实时动态更新环境数据,这对于应对复杂多变的驾驶场景、保障自动驾驶的安全性和高效性至关重要。

传统的高清地图构建方法依赖于人工标注和基于 SLAM 的技术,这些方法不仅成本高昂,而且在快速变化的环境中难以维护。随着计算机视觉技术的发展,基于深度学习的方法逐渐成为主流,尤其是鸟瞰图(BEV)表示的出现,推动了高清地图构建向端到端学习的方向发展。然而,现有基于密集 BEV 特征的方法存在计算复杂度高的问题,其计算成本会随着感知范围的扩大而显著增加,这给在低功耗或资源受限设备上的部署带来了巨大挑战。

稀疏表示方法通过避免密集 BEV 处理,为解决计算效率问题提供了新的思路。但现有稀疏表示方法由于缺乏针对性的设计,性能往往落后于密集表示方法,难以在在线高清地图构建中形成竞争力。为此,本文提出了 SparseMeXt,一种专门优化的稀疏表示框架,通过一系列架构和算法上的创新,成功弥合了稀疏表示与密集表示之间的性能差距,甚至实现了超越。

1.1 核心贡献

本文的核心贡献主要体现在以下三个方面:

  1. 提出了一种针对稀疏地图特征提取的专用网络架构,优化了特征聚合和表示学习过程,能够更好地捕捉地图任务所需的大面积覆盖特征。
  2. 设计了一种稀疏 - 密集辅助分割监督方法,通过融合实例级监督和场景级分割任务,弥补了稀疏范式中缺乏明确 BEV 特征的不足,有效提升了语义和几何信息的利用效率。
  3. 引入了基于物理先验的查询去噪策略(PPDN),通过生成符合物理约束的噪声类型,增强了预测结果的稳定性和鲁棒性,解决了稀疏检测任务中的查询不一致问题。

1.2 性能亮点

在 nuScenes 数据集上的实验结果表明,SparseMeXt 取得了当前最先进的性能:

  • SparseMeXt-Tiny(ResNet-18 骨干网络)在 32 帧 / 秒(fps)的速度下实现了 55.5% 的平均精度(mAP);
  • SparseMeXt-Base(ResNet-50 骨干网络)达到 65.2% 的 mAP,同时保持 25.4 fps 的推理速度;
  • 进一步扩展骨干网络和解码器后,SparseMeXt-Large(ResNet-101)在超过 20 fps 的速度下实现了 68.9% 的 mAP,建立了稀疏表示在高清地图构建中的新基准。

如图 1 所示,SparseMeXt 在效率和准确性之间实现了卓越的平衡,不仅显著优于 SparseDrive 等其他稀疏方法,甚至超越了 MapTRv2 等密集表示方法,充分证明了稀疏表示在高清地图构建中的巨大潜力。

二、相关工作

2.1 高清地图构建

高清地图构建方法的发展可以分为三个阶段:

  1. 传统方法:依赖人工标注和 SLAM 技术,成本高且维护困难,难以适应动态环境。
  2. 基于线特征先验的方法:通过前视图像直接检测车道线等地图元素,提升了构建效率,但受限于单视角信息,精度和鲁棒性不足。
  3. 基于 BEV 表示的学习方法:这是当前的主流方向,主要分为两类:
    • 栅格化方法:如 HDMapNet,通过逐像素分割生成矢量化地图,依赖密集 BEV 特征,计算成本高;
    • 矢量化方法:如 VectorMapNet 和 MapTR 系列,将地图元素表示为点序列或采用 DETR-like 范式直接预测矢量地图,效率更高,但仍需维护密集的 BEV 特征空间。

近年来,StreamMapNet 通过融合时间信息提升了矢量地图的时间一致性,但上述方法均存在计算复杂度与感知范围正相关的问题,限制了其在资源受限设备上的部署。

2.2 3D 稀疏感知

稀疏感知方法的发展为解决密集 BEV 的计算效率问题提供了关键思路:

  • DETR 引入了基于集合的损失和 Transformer 架构,直接预测稀疏检测结果,开创了稀疏检测范式;
  • DETR3D 作为稀疏方法的代表性工作,基于稀疏参考点进行特征采样和融合;
  • Sparse4D 系列通过可变形 4D 聚合模块,无需依赖密集视图转换和全局注意力,实现了高效的 3D 检测,更适合边缘设备部署;
  • SparseDrive 和 SparseAD 将检测、跟踪和在线地图构建统一到时间解码器框架中,首次实现了基于全稀疏场景表示的高清地图构建,但性能仍落后于密集表示方法。

现有稀疏感知方法在 3D 目标检测中取得了显著进展,但在在线高清地图构建任务中的系统性研究仍不足,导致其性能难以与密集 BEV 方法竞争。本文正是针对这一研究空白,通过对稀疏网络设计的系统性优化,提升了稀疏表示在高清地图构建中的性能。

三、方法详解

SparseMeXt 采用稀疏编码器 - 解码器框架,专门针对地图矢量化任务设计。其整体架构如图 2 所示,主要包括图像编码器、查询存储库、去噪时间稀疏地图解码器和稀疏 - 密集辅助分割任务四个核心部分。

3.1 架构优化

现有稀疏方法(如 SparseDrive)的架构主要为 3D 目标检测设计,未能充分适配高清地图构建任务的特点(如地图元素空间覆盖范围大、时间不变性强等)。为此,本文从四个方面对架构进行了针对性优化:

3.1.1 现代图像骨干网络

骨干网络的预训练数据集对下游任务性能有显著影响。现有方法通常使用 ImageNet 预训练权重,但 ImageNet 的目标中心图像与驾驶场景存在较大领域差异,且其优化目标(分类)与地图构建任务(定位敏感)不匹配。

本文通过实验对比了不同预训练数据集的影响,结果如表 1 所示:

  • 使用 DD3D 深度数据集预训练时,性能反而下降 1.2%,这是因为深度估计任务与地图构建的特征需求差异较大;
  • 使用 nuImages 数据集(驾驶场景)结合 Cascade R-CNN 进行预训练时,mAP 提升了 1.5%,这是因为该预训练任务与地图构建任务的特征需求更匹配。

因此,SparseMeXt 采用在 nuImages 上预训练的 ResNet-50 作为骨干网络,最小化领域差异,提升特征表示能力。

3.1.2 重新思考高清地图构建任务中的图像编码器颈部结构

传统的特征金字塔网络(FPN)采用多输入多输出(MiMo)结构,通过多尺度特征融合和分而治之策略提升目标检测性能。但对于高清地图构建任务,这种结构存在两个关键问题:

  1. FPN 限制了每个骨干网络层级只能检测特定尺度范围的目标,而地图元素(如车道线、道路边界)通常占据较大的图像区域,更接近大目标检测任务,多尺度融合的收益有限;
  2. FPN 的主要优势在于解决密集目标检测中的优化挑战,而非多尺度特征融合(YOLOF 已验证这一点)。

为此,SparseMeXt 借鉴 YOLOF 的单输入多输出(SiMo)结构,仅使用 ResNet-50 的 C5 特征作为输入,不进行多尺度特征融合,简化了颈部结构。实验结果如表 2 所示,SiMo 结构不仅将计算量(Flops)从 193.6 降至 96.0,参数量从 85.8M 降至 39.7M,还使 mAP 提升了 4.25%,充分证明了该结构对地图构建任务的适配性。

3.1.3 调整阶段计算比例

SparseDrive 采用 1 个非时间感知阶段和 5 个时间融合阶段的结构,这种设计适合 3D 目标检测任务(目标多样性高,需要更多时间融合)。但地图任务具有以下特点:

  1. 地图元素类别少(仅行人过街、车道分隔线、道路边界三类);
  2. 几何位置具有较好的时间不变性,过多的时间融合阶段会导致参数冗余和过拟合。

本文通过实验系统探索了非时间阶段和时间阶段的最佳组合,结果如表 3 所示:

  • 1 个非时间阶段 + 4 个时间阶段的配置效果最佳,平均 mAP 提升 0.07%;
  • 减少时间阶段数量(如 1+3)会导致性能显著下降(-2.2%);
  • 增加非时间阶段数量(如 2+4)也会降低性能(-0.8%)。

这一结果验证了地图任务对时间融合的需求低于 3D 目标检测,合理的阶段比例设计能够避免参数冗余,提升模型效率和泛化能力。

3.1.4 解耦解码器

分类和回归任务在特征敏感性上存在本质冲突:分类任务关注目标的语义信息,而回归任务关注目标的几何边界信息。现有方法(如 SparseDrive)通过在实例特征级别引入解耦细化层缓解了这一问题,但在图像特征点提取阶段仍不可避免地存在特征冲突。

为解决这一问题,本文提出了基于可变形特征聚合层的任务解耦方法(Decouple-DFA),如图 3 所示。该方法在特征提取阶段为分类和回归任务构建独立的特征采样点,实现了特征空间的解耦:

  • 分类分支的采样点聚焦于富含类别信息的区域;
  • 回归分支的采样点聚焦于对边界定位至关重要的区域。

这种空间分离的特征提取方式使每个任务分支能够独立优化,互不干扰。实验结果如表 4 所示,与基线相比,Decouple-DFA 使 mAP 提升了 0.6%,有效缓解了分类和回归的任务冲突。

3.2 实例和场景辅助分割

MapTRv2 等密集方法通过 BEV 上的辅助前景分割任务,利用深度监督引导骨干网络学习 3D 几何信息,提升了地图构建性能。但稀疏架构的设计理念与密集 BEV 空间相冲突,直接构建并行的密集 BEV 空间会导致训练参数大幅增加,且无法带来显著性能提升。

为此,本文设计了一种以查询为中心的稀疏 - 密集重建模块,如图 4 所示,其核心思路是在不引入推理阶段额外计算开销的前提下,为稀疏架构提供全局前景监督:

  1. 以 SparseMeXt 的实例特征为输入,通过上采样卷积层将其转换为 BEV 密集表示;
  2. 拼接多个实例特征,整合空间和上下文信息;
  3. 输出分割图,提供逐像素分类监督;
  4. 推理阶段禁用该模块,不增加计算成本。

实验结果如表 5 所示,引入该辅助分割任务后,模型的 mAP 提升了 0.9%,证明了其在增强语义和几何信息利用方面的有效性。

3.3 基于物理先验的查询去噪(PPDN)

DN-DETR 通过向真实边界框添加噪声,训练模型重建原始框,提升了检测性能。但地图元素(如车道线、道路边界)通常为曲线结构,直接向每个点添加随机噪声会破坏其几何一致性,不利于模型收敛。

针对这一问题,本文基于地图元素的物理特性(静态性、几何规律性),设计了四种符合物理约束的噪声类型(如图 2 所示),确保噪声扰动不会违反现实世界的物理规律:

  1. 旋转噪声:以线段所有点的平均点为锚点,添加随机旋转角度 θ;
  2. 位置噪声:基于上述锚点,向线段所有点的 x 和 y 方向添加相同的噪声;
  3. 尺度噪声:对线段所有点的 x 和 y 坐标施加随机缩放噪声;
  4. 曲率噪声:通过计算连续点切线的差值与欧氏距离的比值(二阶导数)确定车道曲率,基于曲率添加噪声,并调整每个点的位移。

需要注意的是,道路静态元素的位置和类别关系具有强相对依赖性,因此本文不采用类别噪声。实验结果如表 6 所示,PPDN 使模型的 mAP 提升了 0.5%,有效提升了预测的稳定性和鲁棒性。

四、实验

4.1 实验设置

4.1.1 数据集

实验基于 nuScenes 地图数据集,包含三类地图元素:

  • 线形状:车道分隔线(lane divider)、道路边界(road boundary);
  • 多边形形状:行人过街(pedestrian crossing)。

数据集按照官方划分,训练集 / 验证集 / 测试集分别包含 700/150/150 个场景。基础检测范围为 x 轴 30m、y 轴 60m;为验证长距离感知性能,本文还生成了长距离数据集,将 x 轴和 y 轴范围分别扩展至 60m 和 90m。

4.1.2 训练细节
  • 输入图像分辨率:704×256;
  • 框架:PyTorch,采用自动混合精度(AMP)训练;
  • 硬件:4 块 NVIDIA A100 GPU;
  • 批量大小:每块 GPU 16;
  • 训练轮数:100 个 epoch;
  • 优化器:AdamW,权重衰减 0.01,梯度 L2 范数裁剪至 35;
  • 学习率:初始学习率 0.006,采用半余弦衰减策略;骨干网络学习率乘以 1/10(因已预训练);
  • 感知范围:基础范围(x:-15~15m,y:-30~30m);长距离范围(x:-30~30m,y:-45~45m)。
4.1.3 推理细节
  • 推理过程:直接预测 100 个地图元素及其置信度分数,选择分数最高的预测结果,无需额外后处理;
  • 硬件:单块 NVIDIA GeForce RTX 3090 GPU;
  • 批量大小:1。

4.2 定量结果

4.2.1 与现有方法的对比

表 7 展示了 SparseMeXt 与当前最先进方法在 nuScenes 验证集上的性能对比。可以看出:

  • SparseMeXt-Tiny(ResNet-18)以 55.5% 的 mAP 显著优于 MapTR-Nano(45.9%)和 MapTRv2-Tiny(52.3%),且推理速度达到 32.9 fps,远超同类方法;
  • SparseMeXt-Base(ResNet-50)的 mAP 达到 65.2%,优于 MapTR-Tiny(58.7%)和 MapNeXt-Tiny(63.0%),速度为 25.4 fps;
  • SparseMeXt-Large(ResNet-101)的 mAP 达到 68.9%,超越了所有对比方法,包括 MapTRv2-Base(68.7%)和 SparseDrive-B(56.2%),同时保持 20.2 fps 的实时推理速度。

这一结果充分证明了 SparseMeXt 在性能和效率上的双重优势,打破了稀疏表示性能落后于密集表示的固有认知。

4.2.2 中心线检测任务

中心线检测为下游运动预测和路径规划提供方向和连通性信息,而 SparseDrive-map 未考虑该任务。表 8 展示了 SparseMeXt 在中心线任务上的性能:

  • SparseMeXt-Base 的平均 AP 达到 58.8%,显著优于 MapTRv2(54.0%);
  • 这一结果表明 SparseMeXt 不仅在地图元素检测上表现出色,还能为端到端规划提供有力支持。

4.2.3 长距离高清地图构建

自动驾驶对长距离感知有迫切需求,表 9 展示了 SparseMeXt 在 60×90m 感知范围下的性能:

  • SparseMeXt-Base 的 mAP 达到 47.6%,比 MapTR (R50) 高出 7.4%;
  • 这一结果证明 SparseMeXt 在长距离场景下仍能保持优异性能,具有更强的实际应用价值。

4.3 消融实验

为验证各创新模块的有效性,本文以 SparseDrive-Map 为基线(mAP=57.4%),进行了逐步消融实验,结果如表 10 所示:

  1. 调整阶段比例:mAP 提升 0.07%,验证了阶段比例设计的合理性;
  2. 引入 SiMo 颈部结构:mAP 提升 4.25%,是性能提升的关键因素之一;
  3. 加入 Decouple-DFA 解耦解码器:mAP 提升 0.6%,缓解了分类与回归的任务冲突;
  4. 使用 nuImages 预训练骨干网络:mAP 提升 1.5%,证明了任务相关预训练的重要性;
  5. 引入辅助分割损失:mAP 提升 0.9%,增强了语义和几何信息利用;
  6. 加入 PPDN 去噪模块:mAP 提升 0.5%,提升了预测稳定性。

所有模块协同作用后,SparseMeXt-Base 的 mAP 达到 65.2%,比基线提升了 10.1%,同时推理速度提升了 14 fps,充分证明了各创新模块的有效性和协同性。

4.4 定性结果

图 5 展示了 SparseMeXt 与 SparseDrive 在不同场景下的定性对比:

  • 在常规场景中,SparseMeXt 能够更准确地检测出车道分隔线、道路边界和行人过街区域,减少了漏检(FN)和误检;
  • 在长距离场景中,SparseMeXt 能够稳定检测远距离的道路元素,而 SparseDrive 的检测效果明显下降;
  • 在中心线检测任务中,SparseMeXt 预测的中心线更贴合真实道路结构,为下游规划任务提供了更可靠的输入。

这些定性结果进一步验证了 SparseMeXt 在复杂驾驶场景、长距离感知和中心线检测中的优势。

五、结论

本文提出了 SparseMeXt,一种基于稀疏表示的高效高清地图构建框架,通过架构优化、辅助分割监督和物理先验去噪三大核心创新,成功实现了稀疏表示对密集表示的超越。在 nuScenes 数据集上的实验表明,SparseMeXt 在性能和效率之间取得了卓越的平衡,为在线高清地图构建提供了一种更具部署价值的解决方案。

SparseMeXt 的成功证明了稀疏表示在高清地图构建中的巨大潜力,打破了密集 BEV 特征的垄断地位。未来的研究方向可以包括:

  1. 进一步优化长距离感知性能,适应更复杂的驾驶场景;
  2. 融合多传感器信息(如激光雷达、毫米波雷达),提升模型的鲁棒性;
  3. 探索端到端自动驾驶框架,将地图构建与运动预测、路径规划深度融合。

我们相信,SparseMeXt 的提出将为自动驾驶领域的高清地图构建技术带来新的发展方向,推动更安全、更高效的自动驾驶系统的落地。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/6 17:51:20

终极simsun.ttf字体使用指南:打造专业中文排版体验

终极simsun.ttf字体使用指南:打造专业中文排版体验 【免费下载链接】simsun.ttf字体文件下载仓库 SimSun.ttf是一款经典的中文字体,以其清晰、优雅的设计广泛应用于中文文档排版与设计中。本仓库提供该字体的便捷下载,帮助用户轻松获取这一重…

作者头像 李华
网站建设 2025/12/27 7:01:59

数据科学家不愿公开的秘密:R和Python模型融合的4种高阶策略

第一章:数据科学家不愿公开的秘密:R和Python模型融合的4种高阶策略在跨语言建模日益普遍的今天,R与Python的协同使用已成为提升模型性能的关键路径。尽管多数从业者习惯于单一生态,但真正的高手往往在后台融合两种语言的优势——R…

作者头像 李华
网站建设 2025/12/27 7:57:07

Wan2.2-T2V-5B如何处理空间关系描述?实例演示

Wan2.2-T2V-5B如何处理空间关系描述?实例演示 你有没有试过让AI生成一段视频,结果画面里的“车从左边开到右边”,可那辆车却像瞬移一样,压根没走直线?或者你说“鸟在云上面飞”,AI却把云堆到了天空底部………

作者头像 李华
网站建设 2025/12/26 16:44:47

Wan2.2-T2V-A14B:140亿参数如何重塑高保真视频生成新标准

Wan2.2-T2V-A14B:140亿参数如何重塑高保真视频生成新标准 你有没有想过,未来拍电影可能不再需要摄影机、灯光组和几十人的团队?只需要一句话:“黄昏时分,一位武士在樱花树下拔刀,刀光闪烁,花瓣纷…

作者头像 李华
网站建设 2025/12/27 0:18:42

SVG.js动画开发终极指南:从零开始掌握矢量图形动画

SVG.js动画开发终极指南:从零开始掌握矢量图形动画 【免费下载链接】svg.js 项目地址: https://gitcode.com/gh_mirrors/svg/svg.js SVG.js是一个功能强大的JavaScript库,专门用于创建和操作SVG矢量图形。在前端开发领域,SVG.js以其简…

作者头像 李华
网站建设 2025/12/27 15:45:39

Wan2.2-T2V-A14B如何处理遮挡与物体交互的复杂场景?

Wan2.2-T2V-A14B如何处理遮挡与物体交互的复杂场景? 你有没有遇到过这种情况:输入一段“小孩跑进树林,被树挡住,三秒后拿着气球跑出来”的描述,结果生成的视频里,小孩一进树后就消失了,再出现时…

作者头像 李华