导读
破解自动驾驶“三大核心瓶颈”!传统模块化“感知-决策-动作”系统存在误差传播、泛化性弱,Vision-Action(VA)模型则面临黑箱决策、缺乏推理能力的痛点。世界Bench团队联合多家高校提出VLA(Vision-Language-Action)模型体系,实现四重关键突破:
①融合视觉、语言、动作三大模态,赋予驾驶系统推理与解释能力;
②构建“端到端VLA+双系统VLA”两大核心范式,平衡实时性与安全性;
③支持文本/数值/控制信号等多类型动作输出,适配不同应用场景;
④配套完善数据集与基准,覆盖开环/闭环全维度评估。
该体系让自动驾驶从“数据驱动”迈向“推理驱动”,为可解释、强泛化、人机协同的驾驶系统提供了完整技术框架。
📷 图1 | VLA模型分类框架(论文核心架构)本研究旨在为自动驾驶的VLA范式提供一个结构化路线图。首先介绍初步基础(第2节),其中将正式阐述VLA模型的通用公式,并详细说明其三个核心组件:多模态输入方式、VLM主干网络和动作预测头。然后,我们将追溯从VA模型(第3节)到VLA模型(第4节)的演变过程,VA模型直接将感知映射到控制,而VLA模型则融入了基于语言的推理和可解释的决策。我们进一步将VLA架构分为两大范式——端到端VLA(第4.1节)和双系统VLA(第4.2节),这两