news 2026/4/12 22:54:45

【论文自动阅读】SparseOccVLA: Bridging Occupancy and Vision-Language Models via Sparse Queries for Unified 4

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】SparseOccVLA: Bridging Occupancy and Vision-Language Models via Sparse Queries for Unified 4

快速了解部分

基础信息(英文):

1.题目: SparseOccVLA: Bridging Occupancy and Vision-Language Models via Sparse Queries for Unified 4D Scene Understanding and Planning
2.时间: 2026.01
3.机构: Huazhong University of Science and Technology, Xiaomi EV, Institute for AI Industry Research (AIR), Tsinghua University
4.3个英文关键词: Sparse Occupancy, VLM, Autonomous Driving

1句话通俗总结本文干了什么事情

本文提出了一种名为SparseOccVLA的自动驾驶模型,利用稀疏查询将视觉语义与语言模型结合,统一解决了场景理解、环境预测和路径规划问题。

研究痛点:现有研究不足 / 要解决的具体问题

  1. Token爆炸与时空推理弱:传统视觉语言模型(VLMs)在处理多视角视频流时面临巨大的Token数量压力,且难以有效进行时空推理。
  2. BEV表示的低效性:鸟瞰图(BEV)表示通常过于稠密,包含大量无效Token,且压缩过程会丢失空间细节,难以处理非结构化场景。
  3. Occupancy与VLM融合难:语义占据(Occupancy)虽然提供了细粒度的3D表示,但其稠密低级的特性与VLM难以对齐,导致两者长期分离,无法有效结合几何细节与高层语义。

核心方法:关键技术、模型或研究设计(简要)

提出SparseOccVLA,包含三个核心组件:

  1. 稀疏占据编码器:生成紧凑且信息丰富的稀疏占据查询(Sparse Occupancy Queries),作为视觉与语言之间的桥梁。
  2. 统一LLM:利用大语言模型(LLM)处理对齐后的占据Token,同时执行场景理解和未来的占据预测。
  3. LLM引导的锚点扩散规划器:利用LLM对轨迹锚点进行评分,并通过扩散模型进行去噪回归,实现决策与规划。

深入了解部分

相比前人创新在哪里

  1. 真正的Occupancy-VLM融合:不同于以往使用MLP/Q-Former连接图像Token或使用BEV的方法,这是首个完全基于稀疏占据查询(而非视觉Token)作为视觉语言桥梁的模型,实现了占据感知与VLM的端到端统一。
  2. 高效的信息载体:证明了稀疏占据查询比传统的视觉Token或BEV特征更具信息密度,能更有效地连接低级几何感知与高级语言推理。
  3. 解耦的规划架构:创新性地设计了LLM引导的锚点扩散规划器,利用LLM进行高层锚点评分,利用扩散模型进行轨迹回归,结合了两者的优势。

解决方法/算法的通俗解释

想象一下,自动驾驶汽车需要“看懂”世界并“说出”计划。

  1. 看(稀疏化):汽车不再像人眼一样分析每一粒像素(那样太慢且信息冗余),而是提取关键的“稀疏占据点”(比如哪里有车、哪里有墙)。
  2. 想(统一理解):把这些关键点翻译成文字语言(Token),直接喂给大模型(LLM)。大模型不仅能回答“前面有车”,还能预测“这辆车未来会移动到哪里”。
  3. 做(规划):在规划路径时,大模型先选出几个“靠谱的路线方案”(锚点评分),然后让专门的数学模型(扩散模型)微调出最平滑的行驶轨迹。

解决方法的具体做法

  1. 稀疏占据编码:使用轻量级编码器从多视角图像中提取稀疏占据查询(约300-600个),并通过特征蒸馏辅助训练,使其对齐语言空间。
  2. 统一Token处理:将占据Token和全局场景Token输入LLM,通过残差融合将高层语义反馈给低层占据查询,实现双向增强。
  3. 锚点扩散规划:使用K-means聚类生成轨迹锚点;LLM根据语义理解对锚点打分;扩散模型在噪声中迭代去噪,结合占据查询和车辆状态生成最终轨迹。

基于前人的哪些方法

  1. SparseBEV:稀疏占据编码器的设计借鉴了SparseBEV的层级化特征采样和自适应融合机制。
  2. SparseWorld:借鉴了稀疏查询在4D占据预测中的应用,但将其扩展到了VLM领域。
  3. DiffusionDrive:规划模块借鉴了基于锚点的扩散模型(Anchor-Diffusion)策略,但增加了LLM的引导机制。

实验设置、数据、评估方式、结论

  1. 数据集:nuScenes数据集(700个场景训练)。
  2. 基准任务
    • 场景理解:OmniDrive-nuScenes基准(CIDEr, METEOR, ROUGE指标)。
    • 占据预测:Occ3D-nuScenes基准(mIoU指标)。
    • 规划:开环规划(L2误差,碰撞率)。
  3. 主要结论
    • 理解:CIDEr得分0.795,比SOTA(HERMES)提升7%。
    • 预测:未来3秒平均mIoU提升0.51。
    • 规划:建立了新的SOTA开环规划指标,证明了稀疏查询作为唯一感知输入的有效性。

提到的同类工作

  1. HERMES:基于VLM的自动驾驶世界模型,使用LiDAR和QA数据。
  2. OmniDrive:结合了视觉语言模型和端到端规划的框架。
  3. SparseWorld:基于稀疏查询的4D占据世界模型。
  4. OccVLA:引入辅助占据监督的VLA模型,但仍依赖视觉Token。
  5. LLaVA / Q-Former:通用的视觉语言模型连接方法。

和本文相关性最高的3个文献

  1. SparseWorld:本文直接在其稀疏占据预测的基础上引入了VLM进行理解和规划,是本文模型架构的直接前身。
  2. HERMES:目前的SOTA视觉语言自动驾驶模型,本文在场景理解(CIDEr)和规划指标上均以该模型为基准进行了对比和超越。
  3. OccVLA:近期尝试结合占据与VLA的工作,本文指出其仍依赖视觉Token的局限性,并提出了完全基于占据查询的改进方案。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/11 11:11:07

【SOLIDWORKS 练习题】草图专题:3.机械臂

🔥小龙报:个人主页 🎬作者简介:C研发,嵌入式,机器人等方向学习者 ❄️个人专栏:《SOLIDWORKS 练习题》 ✨ 永远相信美好的事情即将发生 文章目录前言一、机械臂1.1 题目来源1.4 绘制结果&#x…

作者头像 李华
网站建设 2026/3/30 10:34:33

【开题答辩全过程】以 基于ssm的社区留守儿童身心健康帮扶系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华
网站建设 2026/4/7 7:37:13

【信创】华为昇腾NLP算法训练

1. 项目概述 目标:在国产信创硬件上训练长文本分类模型,并部署 API 提供推理服务任务类型:多类别/二分类 NLP 问题输入数据:长文本(如 2000 token)输出:文本类别预测硬件环境: 2 A…

作者头像 李华
网站建设 2026/4/12 15:28:29

用户态热补丁技术深度解析:构建原理、适用场景与操作指南

引言 在Linux系统运维中,热补丁技术因其"零中断"修复特性成为关键技术。本文聚焦用户态热补丁技术,结合SysCare、LibcarePlus等开源方案,系统解析其技术原理、实施方法及注意事项,为运维人员提供可落地的技术指南。 一、…

作者头像 李华
网站建设 2026/4/12 15:40:10

基于SpringBoot的网上宠物店系统毕设源码

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。 一、研究目的 本研究旨在设计并实现一个基于SpringBoot框架的网上宠物店系统,以满足现代电子商务环境下宠物行业的需求。具体研究目的如下: 提升用…

作者头像 李华
网站建设 2026/4/11 11:00:42

基于SpringBoot的课程设计选题管理系统毕业设计源码

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在设计并实现一个基于SpringBoot框架的课程设计选题管理系统,以满足高校课程设计教学过程中的选题、申报、审核、分配以及跟踪等环节的需求。…

作者头像 李华