论文题目:H-V2X: A Large Scale Highway Dataset for BEV Perception(H-V2X:用于纯电动汽车感知的大规模公路数据集)
会议:ECCV2024
摘要:由于路边基础设施感知数据集的可用性,车辆到一切(V2X)技术已经成为研究的一个感兴趣的领域。然而,这些数据集主要集中在城市十字路口,缺乏高速公路场景的数据。此外,由于多个传感器之间的同步数据有限,数据集中的感知任务主要是MONO 3D。为了弥补这一差距,我们提出了高速公路- v2x (H-V2X),这是第一个由现实世界中的传感器捕获的大规模高速公路鸟瞰(BEV)感知数据集。该数据集覆盖了100多公里的高速公路,具有多种道路和天气条件。H-V2X由超过190万个BEV空间的细粒度分类样本组成,由多个同步摄像机捕获,并提供矢量图。我们进行了2D-3D联合校准,以确保正确的投影,并涉及人工以确保数据质量。此外,我们提出了与高速公路场景高度相关的三个任务:BEV检测、BEV跟踪和轨迹预测。我们对每个任务进行了基准测试,并提出了结合矢量地图信息的创新方法。我们希望H-V2X和基准方法能够推动高速公路纯电动汽车感知的研究方向。
该数据集可在https://pan.quark.cn/s/86d19da10d18上获得
H-V2X:首个大规模高速公路BEV感知数据集深度解读
目录
- 1. 论文概述
- 2. 研究背景
- 3. H-V2X数据集介绍
- 4. 三大Benchmark任务
- 5. 实验结果分析
- 6. 总结与展望
1. 论文概述
作者单位:腾讯ADLab
核心贡献
本论文提出了首个大规模高速公路路侧基础设施感知数据集H-V2X,主要贡献包括:
- 提供190万帧真实高速公路场景数据,覆盖超过100公里
- 包含1760万个精细标注的3D对象
- 支持多传感器(5个摄像头+2个雷达)同步数据
- 提供高精度矢量地图
- 定义三个benchmark任务:BEV检测、统一ID跟踪、轨迹预测
- 提供创新的baseline方法
2. 研究背景
2.1 为什么需要高速公路V2X数据集
高速公路是交通运输的关键部分,但安全问题一直存在。虽然智能车辆技术在发展,但大多数车辆仍缺乏先进的驾驶辅助系统。
路侧基础设施感知(V2X)的优势:
- 传感器安装在路侧,覆盖范围广
- 可以感知车辆盲区和远距离目标
- 通过5G或RSU与车辆通信
- 不受单车传感器限制
2.2 现有数据集的局限性
目前的V2X数据集主要存在以下问题:
场景局限:主要集中在城市交叉路口,缺少高速公路场景
任务单一:主要支持单目3D检测(Mono3D),缺少跨传感器的BEV端到端感知
传感器限制:多数依赖LiDAR,但在高速公路场景中,LiDAR安装在桅杆上存在成本高、维护难、感知范围受限等问题
缺少地图融合:未充分利用高精地图(HDMap)信息
2.3 H-V2X的定位
H-V2X数据集填补了高速公路路侧感知的空白,提供了:
- 真实场景采集的大规模数据
- 多传感器同步的BEV空间标注
- 完整的标定参数和矢量地图
- 统一ID的跨传感器目标跟踪
3. H-V2X数据集介绍
3.1 传感器配置
H-V2X采用了完善的多传感器系统,安装在高速公路中间的桅杆上:
摄像头系统:
- 2个长焦相机:焦距70mm,检测范围大于800米,FOV 9.1度
- 2个短焦相机:焦距12mm,FOV 49.78度
- 1个鱼眼相机:焦距1.27mm,FOV 180度,消除桅杆下方盲区
雷达系统:
- 2个长距离雷达:检测范围大于800米
- 提供速度和航向角信息
技术参数:
- 图像分辨率:1920x1080(普通相机)、1280x1280(鱼眼)
- 采样频率:10Hz
- 同步精度:小于50ms(通过NTP服务)
- 覆盖范围:正负500米,8车道
3.2 数据规模与多样性
整体规模:
- 总帧数:194万帧
- 总对象数:1760万个
- 覆盖距离:超过100公里高速公路
- 类别数量:4类(轿车、卡车、面包车、公交车)
场景多样性:
道路类型:
- 长直道
- 弯道
- 立交桥
- 匝道
- 高架桥
天气条件:
- 晴天、雨天、雾天
- 多云、黄昏、夜间
交通状况:
- 正常流量
- 拥堵
- 稀疏交通
3.3 数据分布特征
类别分布:
- 轿车(Sedan):64.4%
- 卡车(Truck):32.6%
- 面包车(Van):2.9%
- 公交车(Bus):0.1%
关键发现:相比城市数据集,高速公路场景中大型车辆(卡车)占比显著更高,达到32.6%。
速度分布:
- 主要集中在70-100+ km/h
- 平均速度:轿车约95 km/h,卡车约80 km/h
轨迹长度:
- 78.4%的轨迹长度超过400米
- 这意味着大部分车辆会穿越多个传感器,形成完整的长距离轨迹
3.4 标定系统
H-V2X提供了三个坐标系统:
- 图像坐标系
- 相机坐标系
- 世界坐标系(矢量地图坐标系)
标定方法:
方法1:人工标定工具
- 使用棋盘格标定相机内参
- 人工调整外参(x, y, z, yaw, pitch, roll)
- 确保矢量地图投影与真实车道对齐
方法2:自动标定算法
- 使用分割模型提取视觉车道线
- 优化矢量地图车道与视觉车道的3D匹配分数
- 采用Bundle Adjustment算法
- 每日自动运行,应对传感器漂移
3.5 创新的标注流程
由于高速公路场景无法使用LiDAR,H-V2X提出了创新的基于摄像头的3D标注流水线:
步骤1:2D检测与跟踪
- 训练云端基础模型(使用122,445标注数据)
- 半监督学习扩展到370,000帧
- mAP达到0.95在IoU=0.5的阈值下
- 2D MOT提供平滑的边界框和跟踪ID
步骤2:2D到3D投影
- 将图像平面边界框投影到矢量地图坐标系
- 利用道路边界信息过滤误检
步骤3:跨传感器目标匹配
- 使用最小欧氏距离匈牙利匹配策略
- 合并不同摄像头观测到的同一目标
步骤4:轨迹后处理
- 扩展卡尔曼滤波平滑轨迹
- 生成BEV空间的统一跟踪ID
- 雷达提供速度和航向角
步骤5:人工质量验证
- 移除幻影轨迹(BEV中存在但图像中不存在的轨迹)
- 移除异常断裂的轨迹
- 标注4个类别
最终结果:生成17,560,000个高质量标注样本
4. 三大Benchmark任务
4.1 任务1:BEV检测(H-V2X-Det)
任务定义
给定时刻t的多个传感器输入,BEV检测的目标是找到一个神经网络F,输出所有图像视角中对象的3D信息:
输入:
- 5个摄像头的图像
- 矢量地图M
输出:
- 类别、置信度
- 3D位置(x, y, z)
- 尺寸(w, l, h)
- 航向角yaw
- 颜色
任务特点
与传统自动驾驶BEV检测的区别:
检测范围更大:
- 传统自动驾驶:正负60米
- H-V2X:正负500米
相机类型多样:
- 长焦相机、短焦相机、鱼眼相机
深度融合HDMap:
- 车道线和道路边界作为关键输入
- 提供静态道路信息
H-BEV模型
论文提出了H-BEV(Highway BEV)模型,这是一个融合鱼眼相机和矢量地图的BEV检测网络。
核心创新:利用HDMap简化深度估计
传统BEVDet需要学习每个像素的大量离散深度值,H-BEV利用HDMap信息:
- 从HDMap通过插值得到单一深度值
- 图像特征图尺寸减少500倍
- 显著提升速度和效率
模型流程:
输入:5个摄像头图像 + 矢量地图 ↓ 特征提取(ResNet-18 backbone) ↓ 利用HDMap生成Frustum点云 ↓ BEV空间特征融合 ↓ 检测头 + 属性预测头 ↓ 输出:3D检测结果评估指标
AP(Average Precision):
- 使用40个recall位置
- 计算平均精度
FPS(Frames Per Second):
- 衡量实时性能
- 测量单帧处理时间
4.2 任务2:统一ID多目标跟踪(H-V2X-Trk)
任务定义
MOT任务的核心是为每个相关的交通参与者建立和维护唯一的ID。
输入:连续的图像序列
输出:
- 完整的3D对象信息(位置和属性)
- 每个对象的唯一ID
- 对象轨迹:S = {o1, o2, o3, ..., oT}
两种范式
方法1:Tracking-by-Detection(本文采用)
- 两阶段过程
- 先检测目标位置
- 再关联连续帧中的目标
- 分配正确的ID
方法2:Joint Detection and Tracking
- 端到端方法
- 同时进行检测和跟踪
- 学习检测特征和re-identification特征
Baseline方法
H-V2X提供了基于SORT算法的baseline:
核心组件:
- 卡尔曼滤波:运动估计和预测
- 匈牙利算法:目标匹配
- 欧氏距离:相似度度量
- Track管理:处理新生和丢失的目标
运动模型:
使用3D坐标(x, y, z)作为测量值,一阶差分(速度分量vx, vy, vz)融入状态转移矩阵。
评估指标
MOTA(Multiple Object Tracking Accuracy):
综合考虑假阴性、假阳性和ID切换:
MOTA = 1 - (FN + FP + IDS) / GT
其中:
- FN:假阴性(漏检)
- FP:假阳性(误检)
- IDS:ID切换次数
- GT:真实目标数量
MOTP(Multiple Object Tracking Precision):
测量预测边界框中心与真实边界框中心的平均欧氏距离。
IDS(ID Switch):
单独衡量跟踪算法保持目标身份一致性的能力。
4.3 任务3:轨迹预测(H-V2X-Prediction)
任务定义
基于观测到的历史轨迹,预测对象未来一段时间内的连续轨迹。
输入:
- 历史轨迹:p1, p2, p3, ..., pt
- 矢量地图M
输出:
- 未来轨迹:pt+1, pt+2, ..., pt+T
- T为预测时间步数(1-5秒)
Baseline方法
Baseline 1:Vanilla SocialGAN
基于SocialGAN实现:
- 使用LSTM编码历史轨迹
- 使用GAN生成未来轨迹
- 数据增强:位置添加随机噪声[-2m, 2m],方向添加高斯噪声[-0.785, 0.785]弧度
- 训练500,000次迭代
Baseline 2:HD-GAN(本文提出)
融合HDMap信息的改进版本:
核心创新:使用全局地图信息提取对象的全局位置特征
模型组件:
- HDMap Layer:输入车道线信息
- HDMap Normalization Layer:计算对象全局位置,归一化到[0,1]
- HDMap Encoder Layer:编码全局地图位置特征
- Generator:LSTM + Pooling + 全局特征融合
- Discriminator:判别真假轨迹
评估指标
ADE(Average Displacement Error):
测量预测位置与实际位置之间的平均误差:
对每个时间步计算欧氏距离,然后取平均。
FDE(Final Displacement Error):
测量预测的最终位置与实际最终位置之间的误差:
只计算最后一个时间步的欧氏距离。
5. 实验结果分析
5.1 BEV检测结果
定量结果
| 方法 | Backbone | mAP3D | mAPbev | FPS |
|---|---|---|---|---|
| Late Fusion | - | 31.75 | 33.24 | 10 |
| Early Fusion (H-BEV) | ResNet-18 | 35.49 | 38.40 | 6 |
关键发现:
Early Fusion显著优于Late Fusion
- mAP3D提升:3.74个百分点(+11.8%)
- mAPbev提升:5.16个百分点(+15.5%)
速度差异可接受
- Late Fusion:10 FPS
- Early Fusion:6 FPS
- 都满足实时要求
定性分析
Late Fusion的问题:
- 对标定参数更敏感
- 截断和遮挡目标检测效果差
- 依赖2D检测质量
Early Fusion的优势:
- 更鲁棒
- 端到端学习
- 更好地处理困难情况
HDMap的作用:
- 简化深度估计:从离散多值到单一值
- 特征图大小减少:原始尺寸的1/500
- 统一处理鱼眼和针孔相机的投影
5.2 MOT结果
定量结果
| 指标 | MOTA | MOTP | IDS |
|---|---|---|---|
| Baseline | 0.85 | 0.95 | 0.05 |
结果解读:
- MOTA=0.85:总体跟踪准确率良好
- MOTP=0.95:位置精度很高
- IDS=0.05:ID切换较少
挑战分析
高速公路场景的MOT面临独特挑战:
高速运动:
- 车速70-100+ km/h
- 帧间位移大
- 需要强运动模型
长时间遮挡:
- 立交桥遮挡持续数秒
- 大型车辆遮挡小车
- 容易导致ID断裂
近距离混淆:
- 多车并行行驶
- 单纯距离匹配不足
- 需要更多特征
改进方向:
- 引入外观特征
- 加强运动约束
- 利用车道线信息
- 结合地图约束
5.3 轨迹预测结果
定量结果
预测不同时长(1-5秒)的ADE和FDE:
ADE结果:
| 预测时长 | Vanilla SocialGAN | HD-GAN | 改进 |
|---|---|---|---|
| 1秒 | 0.432 | 0.427 | 1.2% |
| 2秒 | 0.894 | 0.843 | 5.7% |
| 3秒 | 1.430 | 1.291 | 9.7% |
| 4秒 | 2.018 | 1.847 | 8.5% |
| 5秒 | 2.683 | 2.457 | 8.4% |
FDE结果:
| 预测时长 | Vanilla SocialGAN | HD-GAN | 改进 |
|---|---|---|---|
| 1秒 | 0.830 | 0.827 | 0.4% |
| 2秒 | 1.849 | 1.696 | 8.3% |
| 3秒 | 3.031 | 2.657 | 12.3% |
| 4秒 | 4.382 | 3.879 | 11.5% |
| 5秒 | 5.833 | 5.188 | 11.1% |
关键发现
地图信息的重要性:
- 短期预测(1-2秒):地图作用有限
- 长期预测(3-5秒):地图作用显著增强
- 预测时间越长,全局位置信息越重要
数据增强的效果:
对比有无数据增强:
- 无增强:对观测轨迹抖动敏感
- 有增强:鲁棒性显著提高
- 能更好地处理噪声观测
定性结果
论文展示了可视化结果:
对比A:无地图 vs 有地图
- 无地图:预测轨迹可能偏离道路
- 有地图:预测轨迹符合道路约束
对比B:无增强 vs 有增强
- 无增强:观测抖动时预测误差大
- 有增强:对抖动有更好的抗干扰能力
5.4 数据集对比
与现有V2X数据集对比:
| 数据集 | 年份 | 场景 | 样本数 | 覆盖 | 传感器 | 任务 |
|---|---|---|---|---|---|---|
| DAIR-V2X-C | 2022 | 城市 | 12K | 20km | C+L | Mono3D |
| V2X-Seq | 2023 | 城市 | 11K | 28路口 | C+L | Track+Pred |
| A9-Dataset | 2022 | 高速 | 1K | 3km | C+L | Mono3D |
| HighD | 2018 | 高速 | 1.48M | 420m | C(无人机) | 2D |
| H-V2X | 2024 | 高速 | 1.94M | 100+km | C+R | BEV+MOT+Pred |
H-V2X的独特优势:
- 唯一的大规模高速公路路侧数据集
- 最大的样本规模(1.94M)
- 最长的覆盖距离(100+km)
- 支持端到端BEV感知
- 提供矢量地图
- 统一ID跨传感器跟踪
数据分布差异:
高速 vs 城市场景的关键不同:
| 特征 | 城市场景 | 高速场景 |
|---|---|---|
| 车速 | 0-60 km/h | 70-100+ km/h |
| 卡车占比 | 约10% | 32.6% |
| 轨迹长度 | 小于200m | 78.4%大于400m |
| 检测范围 | 正负100m | 正负500m |
6. 总结与展望
6.1 论文贡献总结
理论贡献:
首次定义高速公路BEV感知任务
- 扩展检测范围至正负500米
- 定义统一ID跨传感器跟踪
- 提出长距离轨迹预测
提出无LiDAR的3D标注方法
- 解决高速公路LiDAR不可行的问题
- 提供完整的标注流水线
- 人机结合保证数据质量
提出HDMap深度融合范式
- H-BEV:地图辅助的BEV检测
- HD-GAN:地图辅助的轨迹预测
- 证明全局位置信息的重要性
数据集贡献:
- 规模大:190万样本,1760万对象
- 覆盖广:100+公里高速公路
- 质量高:人工验证+算法生成
- 完整性:图像+标注+地图+标定
Benchmark贡献:
- 定义3个标准任务
- 提供评估指标和工具
- 建立baseline方法
- 开源数据和代码
6.2 技术亮点
亮点1:多类型相机融合
- 长焦相机:远距离高精度
- 短焦相机:大视野覆盖
- 鱼眼相机:消除盲区
- 统一在BEV空间处理
亮点2:HDMap深度融合
传统vs改进对比:
| 方面 | 传统BEV | H-BEV |
|---|---|---|
| 深度估计 | 学习大量离散值 | HDMap提供单一值 |
| 特征图 | 很大 | 缩小500倍 |
| 鱼眼处理 | 困难 | 简化投影 |
| 道路约束 | 弱 | 强 |
亮点3:统一ID跟踪
- 跨传感器全局统一ID
- 追踪目标完整生命周期
- 支持长距离轨迹分析
- 78.4%轨迹超过400米
6.3 实际应用场景
智能高速公路:
- 实时交通监控
- 事故预警
- 交通流优化
- 应急响应
V2X协同感知:
- 为车辆提供超视距信息
- 盲区补充
- 长距离预警
- 提升驾驶安全
自动驾驶:
- 高速公路自动驾驶训练
- 长距离场景理解
- 多传感器融合研究
- 边缘场景测试
交通管理:
- 交通统计分析
- 行为模式识别
- 违规检测
- 数据驱动决策
6.4 未来工作方向
数据集扩展:
交通事件标注
- 违章停车
- 紧急停车
- 交通事故
- 异常行为
更多场景
- 极端天气
- 夜间场景
- 复杂交织区
算法改进:
更强的MOT
- 加入外观特征
- 利用车道信息
- 改进运动模型
更好的检测
- 长距离小目标
- 遮挡处理
- 多模态融合
更准确的预测
- 意图识别
- 交互建模
- 不确定性估计
系统优化:
- 实时性优化
- 边缘计算部署
- 轻量化模型
- 模型压缩
6.5 局限性
地域性:
- 仅覆盖中国高速公路
- 需要更多国家和地区的数据
类别有限:
- 目前只有4类
- 可以增加更多细分类别
极端情况:
- 极端天气覆盖有限
- 需要更多边缘场景
Baseline可改进:
- 当前方法相对简单
- 还有很大提升空间
7. 如何使用H-V2X数据集
7.1 数据集获取
数据集下载链接:https://pan.quark.cn/s/86d19da10d18
7.2 数据集结构
H-V2X/ ├── images/ # 图像数据 │ ├── long_range_camera_1/ # 长焦相机1 │ ├── long_range_camera_2/ # 长焦相机2 │ ├── short_range_camera_1/ # 短焦相机1 │ ├── short_range_camera_2/ # 短焦相机2 │ └── fisheye_camera/ # 鱼眼相机 ├── annotations/ # 标注数据 │ ├── detection/ # 检测标注 │ ├── tracking/ # 跟踪标注 │ └── prediction/ # 预测标注 ├── calibration/ # 标定参数 │ ├── intrinsics/ # 内参 │ └── extrinsics/ # 外参 ├── vector_map/ # 矢量地图 │ └── hdmap.json └── README.md # 说明文档7.3 数据格式
检测标注示例:
{ "frame_id": "0001234", "timestamp": 1234567890.123, "objects": [ { "id": 1, "class": "sedan", "bbox_3d": { "x": 100.5, "y": 20.3, "z": 0.0, "w": 1.8, "l": 4.5, "h": 1.5, "yaw": 1.57 }, "velocity": 25.5, "color": "red" } ] }7.4 评估工具
数据集提供官方评估脚本:
# BEV检测评估 python eval_detection.py --pred results.json --gt annotations/detection/ # MOT评估 python eval_tracking.py --pred tracks.json --gt annotations/tracking/ # 轨迹预测评估 python eval_prediction.py --pred predictions.json --gt annotations/prediction/结语
H-V2X数据集是V2X和自动驾驶领域的重要里程碑。它不仅填补了高速公路路侧感知数据集的空白,还提出了创新的无LiDAR标注方法和HDMap融合范式。
三大核心价值:
- 学术价值:为研究者提供高质量benchmark
- 工程价值:为实际系统提供训练数据
- 产业价值:推动智能高速公路建设
随着数据集的开源,相信会有更多优秀的算法在H-V2X上被提出,推动高速公路智能化和V2X技术的发展。
如果这篇文章对你有帮助,欢迎点赞、收藏和分享!让我们一起推动自动驾驶和V2X技术的发展!