端到端、强化学习与世界模型 是“不同技术路径”,但不是同一维度上的三选一
在无人驾驶里,端到端方案、强化学习方案、世界模型方案经常被并列讨论,但严格说它们不是完全同级的分类:
| 概念 | 本质 | 回答的问题 | 可以和谁组合 |
|---|---|---|---|
| 端到端方案 E2E | 系统架构/建模范式 | 从传感器输入到轨迹/控制输出,中间要不要手工拆模块? | 可用监督学习、模仿学习、RL、世界模型 |
| 强化学习 RL | 训练/优化方法 | 车辆如何通过奖励函数学习决策策略? | 可训练端到端策略,也可训练模块化规划器 |
| 世界模型 World Model | 环境建模/预测/仿真范式 | 系统是否能建模“世界会如何演化”? | 可服务于E2E、RL、仿真、规划、数据生成 |
所以更准确的说法是:它们代表三条重要技术路线,但更像三个正交维度,而不是互斥方案。一个现代无人驾驶系统完全可能是:端到端架构 + 世界模型表征 + 强化学习/模仿学习训练。
1. 传统无人驾驶:模块化方案是基准参照
传统自动驾驶通常拆成几个明确模块:
传感器 → 感知 → 跟踪 → 预测 → 规划 → 控制比如摄像头、激光雷达、毫米波雷达输入后,系统先检测车道线、车辆、行人、交通灯,再预测其他交通参与者轨迹,最后规划本车轨迹并执行控制。近期综述也把传统方案概括为感知、跟踪、预测、规划、控制等子任务;它的问题是模块间误差会逐级传递,且各模块目标不一定与最终驾驶目标完全一致。(Springer)
模块化方案的优点是可解释、可调试、工程可控、安全验证相对清晰。缺点是人工规则多、模块边界僵硬、长尾场景泛化困难。
2. 端到端方案:从“模块拼接”转向“目标驱动”
端到端自动驾驶的核心思想是:不再把感知、预测、规划、控制完全割裂,而是让一个统一模型或强耦合模型直接服务最终驾驶目标。
典型形式包括:
摄像头/激光雷达/地图/导航 → 神经网络 → 轨迹/动作/控制端到端不一定意味着“完全黑盒”。现在很多E2E系统仍然会保留中间表征,例如 BEV、occupancy、object queries、trajectory candidates、cost map 等。UniAD 这类研究就不是简单的“图像直接打方向盘”,而是把感知、预测、规划放进一个统一框架,让前面任务围绕最终规划目标优化。UniAD 论文明确指出,传统系统按感知、预测、规划顺序组织,而端到端式统一框架试图减少累