从“模仿”到“进化”！华科小米开源MindDrive：在线强化学习重塑「语言-动作」闭环驾驶-洪萨配资

近年来，端到端自动驾驶技术逐渐成为行业主流，而融合视觉、语言与动作的 VLA（Vision-Language-Action）模型则被视为突破传统模块化瓶颈的关键路径。然而，依赖模仿学习的 VLA 模型长期受分布偏移、因果混淆等难题制约，闭环驾驶的安全与泛化能力始终面临挑战。

华中科技大学与小米汽车团队近日联合发布了基于在线强化学习的自动驾驶 VLA 框架——MindDrive，首次实现了在闭环环境中通过实时交互优化驾驶策略，在权威基准测试 Bench2Drive 中刷新同参数模型性能纪录，为 VLA 在自动驾驶领域的落地提供了全新的技术范式。

论文地址：https://arxiv.org/abs/2512.13636v1
项目地址：https://xiaomi-mlab.github.io/MindDrive/

一、传统方法的困境：从模仿学习到强化学习的跨越难题

当前主流的端到端自动驾驶系统通常由感知、预测、规划等多个模块串联而成，虽然在结构化场景表现稳定，但缺乏对复杂场景的常识推理与泛化能力。引入视觉语言模型（VLM）后，模型虽具备了一定的推理能力，但大多仍基于模仿学习——即通过专家数据拟合驾驶行为。这类方法容易因数据分布偏差和因果混淆，在实际闭环驾驶中出现错误累积，甚至引发不可逆的安全风险。

为突破模仿学习的局限，研究者尝试引入强化学习，然而自动驾驶的动作空间是连续的轨迹空间，直接应用在线强化学习探索效率极低：

离线强化学习：依赖于静态数据集，无法与环境交互，缺乏对新场景的适应能力；
传统在线强化学习：虽在语言任务中常用，但在连续轨迹空间中探索难度大，难以生成符合人类驾驶习惯的平滑轨迹。
MindDrive 的突破点正在于此：通过“语言-动作动态映射”，将连续轨迹空间离散化为语言决策空间，使强化学习能在语义层面高效探索，再借助专门的动作模型将语言决策转化为具体轨迹，兼顾推理效率与驾驶拟人性。

二、MindDrive 核心设计：双专家架构 + 在线强化学习交互

MindDrive 的整体架构包含两个核心组件：决策专家与动作专家。两者共享同一视觉编码器与大语言模型基座（Qwen2-0.5B），仅通过不同的 LoRA 参数进行差异化适配：

决策专家：根据导航指令与多视角视觉输入，输出高层语义决策，即“元动作”，如“左转变道”“减速让行”；
动作专家：依据当前场景与导航指令，将元动作转化为具体、平滑的轨迹控制信号。

训练流程分为两阶段：

模仿学习初始化

通过大语言模型生成与人工筛选，构建高质量的“语言–轨迹”对齐数据，使模型初步建立从语言指令到驾驶动作的映射关系，为强化学习提供可靠起点。

在线强化学习优化

在 CARLA 仿真环境中进行闭环交互训练，模型根据实时环境反馈持续优化策略。团队设计了稀疏奖励机制：成功抵达目的地奖励 +1，发生碰撞、闯红灯等事件则奖励 -1，促使模型学习安全、高效的驾驶行为。

该方法首次在自动驾驶 VLA 模型中实现在线强化学习训练，通过环境反馈直接提升模型的推理与决策能力。

三、实验结果：轻量化模型实现 SOTA 性能

作者在Bench2Drive数据进行闭环评估测试，仅使用 0.5B 参数量轻量化 LLM 的 MindDrive，取得了：

驾驶评分（DS）：78.04
成功率（SR）：55.09%

性能全面超越同参数模仿学习基线，甚至达到与 7B 参数量级模型 ORION 相当的水平，同时显著领先于离线强化学习方法 Raw2Drive 及多个现有 VLA 驾驶模型。

这表明，通过在线交互进行策略优化，能极大提升模型在复杂动态环境中的泛化与决策能力，且轻量化架构更适合车载部署。

研究表明，逐步引入不同的惩罚/奖励机制能持续提升模型性能：

碰撞惩罚：使成功率提升1.4%，平均能力评分提升3.76%。模型在持续交互的交通流中学会了更主动的避撞策略，在超车场景中以4.44%的显著优势超越基准。
信号灯惩罚：交通标志识别率提升1.52%，紧急制动准确率提升8.97%。
路线偏离惩罚：有助于在驾驶的果断性与谨慎性间达成更优平衡。
停车标志惩罚：因与停车元动作高度相关，显著促进了高效策略学习。在涉及停车标志的并线场景中，并线能力提升5.26%，安全率提升3.24%。
关键洞察：MindDrive 无需复杂的奖励工程，即可通过在线试错自主发现高效驾驶策略，展现出强大的从失败中学习并确定最优动作的能力。

定性结果展示

图5的定性对比清晰揭示了强化学习阶段的价值：

仅模仿学习版本：展现出强劲的任务特异性能力（如及时制动），但在动态交互场景（如确定最佳变道时机）中表现欠佳。
强化学习优化后：模型能在挑战性场景中选择更稳健、安全且果断的元动作，显著提升了高级推理与复杂环境决策能力。

结论

本文提出了一种名为MindDrive的创新性自动驾驶框架，该框架将语言作为在线强化学习（RL）的接口。MindDrive通过将语言指令映射为动作，将探索空间转化为离散语言空间，从而降低强化学习成本。该框架还使大型语言模型能够在闭环模拟器中通过动作反馈优化推理能力。我们在提出的在线强化学习训练框架内开展了实验。实验表明，MindDrive以轻量级模型实现了业界领先的性能。据我们所知，这是首次在交互式模拟器中成功训练视觉-语言-动作协同的自动驾驶模型。我们期待这项工作能为自动驾驶领域提供宝贵启示。局限性。受限于现实世界交互式模拟器的缺失，我们的评估仅限于CARLA模拟器[8]。此外，同步多个CARLA模拟器的技术挑战阻碍了从相同初始状态评估替代动作的可能性，限制了我们对GRPO算法的应用。