（数据集）H-V2X:用于纯电动汽车感知的大规模公路数据集-洪萨配资

论文题目：H-V2X: A Large Scale Highway Dataset for BEV Perception（H-V2X:用于纯电动汽车感知的大规模公路数据集）

会议：ECCV2024

摘要：由于路边基础设施感知数据集的可用性，车辆到一切(V2X)技术已经成为研究的一个感兴趣的领域。然而，这些数据集主要集中在城市十字路口，缺乏高速公路场景的数据。此外，由于多个传感器之间的同步数据有限，数据集中的感知任务主要是MONO 3D。为了弥补这一差距，我们提出了高速公路- v2x (H-V2X)，这是第一个由现实世界中的传感器捕获的大规模高速公路鸟瞰(BEV)感知数据集。该数据集覆盖了100多公里的高速公路，具有多种道路和天气条件。H-V2X由超过190万个BEV空间的细粒度分类样本组成，由多个同步摄像机捕获，并提供矢量图。我们进行了2D-3D联合校准，以确保正确的投影，并涉及人工以确保数据质量。此外，我们提出了与高速公路场景高度相关的三个任务:BEV检测、BEV跟踪和轨迹预测。我们对每个任务进行了基准测试，并提出了结合矢量地图信息的创新方法。我们希望H-V2X和基准方法能够推动高速公路纯电动汽车感知的研究方向。

该数据集可在https://pan.quark.cn/s/86d19da10d18上获得

H-V2X：首个大规模高速公路BEV感知数据集深度解读

1. 论文概述

作者单位：腾讯ADLab

核心贡献

本论文提出了首个大规模高速公路路侧基础设施感知数据集H-V2X，主要贡献包括：

提供190万帧真实高速公路场景数据，覆盖超过100公里
包含1760万个精细标注的3D对象
支持多传感器（5个摄像头+2个雷达）同步数据
提供高精度矢量地图
定义三个benchmark任务：BEV检测、统一ID跟踪、轨迹预测
提供创新的baseline方法

2. 研究背景

2.1 为什么需要高速公路V2X数据集

高速公路是交通运输的关键部分，但安全问题一直存在。虽然智能车辆技术在发展，但大多数车辆仍缺乏先进的驾驶辅助系统。

路侧基础设施感知（V2X）的优势：

传感器安装在路侧，覆盖范围广
可以感知车辆盲区和远距离目标
通过5G或RSU与车辆通信
不受单车传感器限制

2.2 现有数据集的局限性

目前的V2X数据集主要存在以下问题：

场景局限：主要集中在城市交叉路口，缺少高速公路场景

任务单一：主要支持单目3D检测（Mono3D），缺少跨传感器的BEV端到端感知

传感器限制：多数依赖LiDAR，但在高速公路场景中，LiDAR安装在桅杆上存在成本高、维护难、感知范围受限等问题

缺少地图融合：未充分利用高精地图（HDMap）信息

2.3 H-V2X的定位

H-V2X数据集填补了高速公路路侧感知的空白，提供了：

真实场景采集的大规模数据
多传感器同步的BEV空间标注
完整的标定参数和矢量地图
统一ID的跨传感器目标跟踪

3. H-V2X数据集介绍

3.1 传感器配置

H-V2X采用了完善的多传感器系统，安装在高速公路中间的桅杆上：

摄像头系统：

2个长焦相机：焦距70mm，检测范围大于800米，FOV 9.1度
2个短焦相机：焦距12mm，FOV 49.78度
1个鱼眼相机：焦距1.27mm，FOV 180度，消除桅杆下方盲区

雷达系统：

2个长距离雷达：检测范围大于800米
提供速度和航向角信息

技术参数：

图像分辨率：1920x1080（普通相机）、1280x1280（鱼眼）
采样频率：10Hz
同步精度：小于50ms（通过NTP服务）
覆盖范围：正负500米，8车道

3.2 数据规模与多样性

整体规模：

总帧数：194万帧
总对象数：1760万个
覆盖距离：超过100公里高速公路
类别数量：4类（轿车、卡车、面包车、公交车）

场景多样性：

道路类型：

长直道
弯道
立交桥
匝道
高架桥

天气条件：

晴天、雨天、雾天
多云、黄昏、夜间

交通状况：

正常流量
拥堵
稀疏交通

3.3 数据分布特征

类别分布：

轿车（Sedan）：64.4%
卡车（Truck）：32.6%
面包车（Van）：2.9%
公交车（Bus）：0.1%

关键发现：相比城市数据集，高速公路场景中大型车辆（卡车）占比显著更高，达到32.6%。

速度分布：

主要集中在70-100+ km/h
平均速度：轿车约95 km/h，卡车约80 km/h

轨迹长度：

78.4%的轨迹长度超过400米
这意味着大部分车辆会穿越多个传感器，形成完整的长距离轨迹

3.4 标定系统

H-V2X提供了三个坐标系统：

图像坐标系
相机坐标系
世界坐标系（矢量地图坐标系）

标定方法：

方法1：人工标定工具

使用棋盘格标定相机内参
人工调整外参（x, y, z, yaw, pitch, roll）
确保矢量地图投影与真实车道对齐

方法2：自动标定算法

使用分割模型提取视觉车道线
优化矢量地图车道与视觉车道的3D匹配分数
采用Bundle Adjustment算法
每日自动运行，应对传感器漂移

3.5 创新的标注流程

由于高速公路场景无法使用LiDAR，H-V2X提出了创新的基于摄像头的3D标注流水线：

步骤1：2D检测与跟踪

训练云端基础模型（使用122,445标注数据）
半监督学习扩展到370,000帧
mAP达到0.95在IoU=0.5的阈值下
2D MOT提供平滑的边界框和跟踪ID

步骤2：2D到3D投影

将图像平面边界框投影到矢量地图坐标系
利用道路边界信息过滤误检

步骤3：跨传感器目标匹配

使用最小欧氏距离匈牙利匹配策略
合并不同摄像头观测到的同一目标

步骤4：轨迹后处理

扩展卡尔曼滤波平滑轨迹
生成BEV空间的统一跟踪ID
雷达提供速度和航向角

步骤5：人工质量验证

移除幻影轨迹（BEV中存在但图像中不存在的轨迹）
移除异常断裂的轨迹
标注4个类别

最终结果：生成17,560,000个高质量标注样本

4. 三大Benchmark任务

4.1 任务1：BEV检测（H-V2X-Det）

任务定义

给定时刻t的多个传感器输入，BEV检测的目标是找到一个神经网络F，输出所有图像视角中对象的3D信息：

输入：

5个摄像头的图像
矢量地图M

输出：

类别、置信度
3D位置（x, y, z）
尺寸（w, l, h）
航向角yaw
颜色

任务特点

与传统自动驾驶BEV检测的区别：

检测范围更大：

传统自动驾驶：正负60米
H-V2X：正负500米

相机类型多样：

长焦相机、短焦相机、鱼眼相机

深度融合HDMap：

车道线和道路边界作为关键输入
提供静态道路信息

H-BEV模型

论文提出了H-BEV（Highway BEV）模型，这是一个融合鱼眼相机和矢量地图的BEV检测网络。

核心创新：利用HDMap简化深度估计

传统BEVDet需要学习每个像素的大量离散深度值，H-BEV利用HDMap信息：

从HDMap通过插值得到单一深度值
图像特征图尺寸减少500倍
显著提升速度和效率

模型流程：

输入：5个摄像头图像 + 矢量地图 ↓ 特征提取（ResNet-18 backbone） ↓ 利用HDMap生成Frustum点云 ↓ BEV空间特征融合 ↓ 检测头 + 属性预测头 ↓ 输出：3D检测结果

评估指标

AP（Average Precision）：

使用40个recall位置
计算平均精度

FPS（Frames Per Second）：

衡量实时性能
测量单帧处理时间

4.2 任务2：统一ID多目标跟踪（H-V2X-Trk）

任务定义

MOT任务的核心是为每个相关的交通参与者建立和维护唯一的ID。

输入：连续的图像序列

输出：

完整的3D对象信息（位置和属性）
每个对象的唯一ID
对象轨迹：S = {o1, o2, o3, ..., oT}

两种范式

方法1：Tracking-by-Detection（本文采用）

两阶段过程
先检测目标位置
再关联连续帧中的目标
分配正确的ID

方法2：Joint Detection and Tracking

端到端方法
同时进行检测和跟踪
学习检测特征和re-identification特征

Baseline方法

H-V2X提供了基于SORT算法的baseline：

核心组件：

卡尔曼滤波：运动估计和预测
匈牙利算法：目标匹配
欧氏距离：相似度度量
Track管理：处理新生和丢失的目标

运动模型：

使用3D坐标（x, y, z）作为测量值，一阶差分（速度分量vx, vy, vz）融入状态转移矩阵。

评估指标

MOTA（Multiple Object Tracking Accuracy）：

综合考虑假阴性、假阳性和ID切换：

MOTA = 1 - (FN + FP + IDS) / GT

其中：

FN：假阴性（漏检）
FP：假阳性（误检）
IDS：ID切换次数
GT：真实目标数量

MOTP（Multiple Object Tracking Precision）：

测量预测边界框中心与真实边界框中心的平均欧氏距离。

IDS（ID Switch）：

单独衡量跟踪算法保持目标身份一致性的能力。

4.3 任务3：轨迹预测（H-V2X-Prediction）

任务定义

基于观测到的历史轨迹，预测对象未来一段时间内的连续轨迹。

输入：

历史轨迹：p1, p2, p3, ..., pt
矢量地图M

输出：

未来轨迹：pt+1, pt+2, ..., pt+T
T为预测时间步数（1-5秒）

Baseline方法

Baseline 1：Vanilla SocialGAN

基于SocialGAN实现：

使用LSTM编码历史轨迹
使用GAN生成未来轨迹
数据增强：位置添加随机噪声[-2m, 2m]，方向添加高斯噪声[-0.785, 0.785]弧度
训练500,000次迭代

Baseline 2：HD-GAN（本文提出）

融合HDMap信息的改进版本：

核心创新：使用全局地图信息提取对象的全局位置特征

模型组件：

HDMap Layer：输入车道线信息
HDMap Normalization Layer：计算对象全局位置，归一化到[0,1]
HDMap Encoder Layer：编码全局地图位置特征
Generator：LSTM + Pooling + 全局特征融合
Discriminator：判别真假轨迹

评估指标

ADE（Average Displacement Error）：

测量预测位置与实际位置之间的平均误差：

对每个时间步计算欧氏距离，然后取平均。

FDE（Final Displacement Error）：

测量预测的最终位置与实际最终位置之间的误差：

只计算最后一个时间步的欧氏距离。

5. 实验结果分析

5.1 BEV检测结果

定量结果

方法	Backbone	mAP3D	mAPbev	FPS
Late Fusion	-	31.75	33.24	10
Early Fusion (H-BEV)	ResNet-18	35.49	38.40	6

关键发现：

Early Fusion显著优于Late Fusion
- mAP3D提升：3.74个百分点（+11.8%）
- mAPbev提升：5.16个百分点（+15.5%）
速度差异可接受
- Late Fusion：10 FPS
- Early Fusion：6 FPS
- 都满足实时要求

定性分析

Late Fusion的问题：

对标定参数更敏感
截断和遮挡目标检测效果差
依赖2D检测质量

Early Fusion的优势：

更鲁棒
端到端学习
更好地处理困难情况

HDMap的作用：

简化深度估计：从离散多值到单一值
特征图大小减少：原始尺寸的1/500
统一处理鱼眼和针孔相机的投影

5.2 MOT结果

定量结果

指标	MOTA	MOTP	IDS
Baseline	0.85	0.95	0.05

结果解读：

MOTA=0.85：总体跟踪准确率良好
MOTP=0.95：位置精度很高
IDS=0.05：ID切换较少

挑战分析

高速公路场景的MOT面临独特挑战：

高速运动：

车速70-100+ km/h
帧间位移大
需要强运动模型

长时间遮挡：

立交桥遮挡持续数秒
大型车辆遮挡小车
容易导致ID断裂

近距离混淆：

多车并行行驶
单纯距离匹配不足
需要更多特征

改进方向：

引入外观特征
加强运动约束
利用车道线信息
结合地图约束

5.3 轨迹预测结果

定量结果

预测不同时长（1-5秒）的ADE和FDE：

ADE结果：

预测时长	Vanilla SocialGAN	HD-GAN	改进
1秒	0.432	0.427	1.2%
2秒	0.894	0.843	5.7%
3秒	1.430	1.291	9.7%
4秒	2.018	1.847	8.5%
5秒	2.683	2.457	8.4%

FDE结果：

预测时长	Vanilla SocialGAN	HD-GAN	改进
1秒	0.830	0.827	0.4%
2秒	1.849	1.696	8.3%
3秒	3.031	2.657	12.3%
4秒	4.382	3.879	11.5%
5秒	5.833	5.188	11.1%

关键发现

地图信息的重要性：

短期预测（1-2秒）：地图作用有限
长期预测（3-5秒）：地图作用显著增强
预测时间越长，全局位置信息越重要

数据增强的效果：

对比有无数据增强：

无增强：对观测轨迹抖动敏感
有增强：鲁棒性显著提高
能更好地处理噪声观测

定性结果

论文展示了可视化结果：

对比A：无地图 vs 有地图

无地图：预测轨迹可能偏离道路
有地图：预测轨迹符合道路约束

对比B：无增强 vs 有增强

无增强：观测抖动时预测误差大
有增强：对抖动有更好的抗干扰能力

5.4 数据集对比

与现有V2X数据集对比：

数据集	年份	场景	样本数	覆盖	传感器	任务
DAIR-V2X-C	2022	城市	12K	20km	C+L	Mono3D
V2X-Seq	2023	城市	11K	28路口	C+L	Track+Pred
A9-Dataset	2022	高速	1K	3km	C+L	Mono3D
HighD	2018	高速	1.48M	420m	C(无人机)	2D
H-V2X	2024	高速	1.94M	100+km	C+R	BEV+MOT+Pred

H-V2X的独特优势：

唯一的大规模高速公路路侧数据集
最大的样本规模（1.94M）
最长的覆盖距离（100+km）
支持端到端BEV感知
提供矢量地图
统一ID跨传感器跟踪

数据分布差异：

高速 vs 城市场景的关键不同：

特征	城市场景	高速场景
车速	0-60 km/h	70-100+ km/h
卡车占比	约10%	32.6%
轨迹长度	小于200m	78.4%大于400m
检测范围	正负100m	正负500m

6. 总结与展望

6.1 论文贡献总结

理论贡献：

首次定义高速公路BEV感知任务
- 扩展检测范围至正负500米
- 定义统一ID跨传感器跟踪
- 提出长距离轨迹预测
提出无LiDAR的3D标注方法
- 解决高速公路LiDAR不可行的问题
- 提供完整的标注流水线
- 人机结合保证数据质量
提出HDMap深度融合范式
- H-BEV：地图辅助的BEV检测
- HD-GAN：地图辅助的轨迹预测
- 证明全局位置信息的重要性

数据集贡献：

规模大：190万样本，1760万对象
覆盖广：100+公里高速公路
质量高：人工验证+算法生成
完整性：图像+标注+地图+标定

Benchmark贡献：

定义3个标准任务
提供评估指标和工具
建立baseline方法
开源数据和代码

6.2 技术亮点

亮点1：多类型相机融合

长焦相机：远距离高精度
短焦相机：大视野覆盖
鱼眼相机：消除盲区
统一在BEV空间处理

亮点2：HDMap深度融合

传统vs改进对比：

方面	传统BEV	H-BEV
深度估计	学习大量离散值	HDMap提供单一值
特征图	很大	缩小500倍
鱼眼处理	困难	简化投影
道路约束	弱	强

亮点3：统一ID跟踪

跨传感器全局统一ID
追踪目标完整生命周期
支持长距离轨迹分析
78.4%轨迹超过400米

6.3 实际应用场景

智能高速公路：

实时交通监控
事故预警
交通流优化
应急响应

V2X协同感知：

为车辆提供超视距信息
盲区补充
长距离预警
提升驾驶安全

自动驾驶：

高速公路自动驾驶训练
长距离场景理解
多传感器融合研究
边缘场景测试

交通管理：

交通统计分析
行为模式识别
违规检测
数据驱动决策

6.4 未来工作方向

数据集扩展：

交通事件标注
- 违章停车
- 紧急停车
- 交通事故
- 异常行为
更多场景
- 极端天气
- 夜间场景
- 复杂交织区

算法改进：

更强的MOT
- 加入外观特征
- 利用车道信息
- 改进运动模型
更好的检测
- 长距离小目标
- 遮挡处理
- 多模态融合
更准确的预测
- 意图识别
- 交互建模
- 不确定性估计

系统优化：

实时性优化
边缘计算部署
轻量化模型
模型压缩

6.5 局限性

地域性：

仅覆盖中国高速公路
需要更多国家和地区的数据

类别有限：

目前只有4类
可以增加更多细分类别

极端情况：

极端天气覆盖有限
需要更多边缘场景

Baseline可改进：

当前方法相对简单
还有很大提升空间

7. 如何使用H-V2X数据集

7.1 数据集获取

数据集下载链接：https://pan.quark.cn/s/86d19da10d18

7.2 数据集结构

H-V2X/ ├── images/ # 图像数据 │ ├── long_range_camera_1/ # 长焦相机1 │ ├── long_range_camera_2/ # 长焦相机2 │ ├── short_range_camera_1/ # 短焦相机1 │ ├── short_range_camera_2/ # 短焦相机2 │ └── fisheye_camera/ # 鱼眼相机 ├── annotations/ # 标注数据 │ ├── detection/ # 检测标注 │ ├── tracking/ # 跟踪标注 │ └── prediction/ # 预测标注 ├── calibration/ # 标定参数 │ ├── intrinsics/ # 内参 │ └── extrinsics/ # 外参 ├── vector_map/ # 矢量地图 │ └── hdmap.json └── README.md # 说明文档

7.3 数据格式

检测标注示例：

{ "frame_id": "0001234", "timestamp": 1234567890.123, "objects": [ { "id": 1, "class": "sedan", "bbox_3d": { "x": 100.5, "y": 20.3, "z": 0.0, "w": 1.8, "l": 4.5, "h": 1.5, "yaw": 1.57 }, "velocity": 25.5, "color": "red" } ] }

7.4 评估工具

数据集提供官方评估脚本：

# BEV检测评估 python eval_detection.py --pred results.json --gt annotations/detection/ # MOT评估 python eval_tracking.py --pred tracks.json --gt annotations/tracking/ # 轨迹预测评估 python eval_prediction.py --pred predictions.json --gt annotations/prediction/

结语

H-V2X数据集是V2X和自动驾驶领域的重要里程碑。它不仅填补了高速公路路侧感知数据集的空白，还提出了创新的无LiDAR标注方法和HDMap融合范式。

三大核心价值：

学术价值：为研究者提供高质量benchmark
工程价值：为实际系统提供训练数据
产业价值：推动智能高速公路建设

随着数据集的开源，相信会有更多优秀的算法在H-V2X上被提出，推动高速公路智能化和V2X技术的发展。

如果这篇文章对你有帮助，欢迎点赞、收藏和分享！让我们一起推动自动驾驶和V2X技术的发展！

H-V2X：首个大规模高速公路BEV感知数据集深度解读

目录

1. 论文概述

核心贡献

2. 研究背景

2.1 为什么需要高速公路V2X数据集

2.2 现有数据集的局限性

2.3 H-V2X的定位

3. H-V2X数据集介绍

3.1 传感器配置

3.2 数据规模与多样性

3.3 数据分布特征

3.4 标定系统

3.5 创新的标注流程

4. 三大Benchmark任务

4.1 任务1：BEV检测（H-V2X-Det）

任务定义

任务特点

H-BEV模型

评估指标

4.2 任务2：统一ID多目标跟踪（H-V2X-Trk）

任务定义

两种范式

Baseline方法

评估指标

4.3 任务3：轨迹预测（H-V2X-Prediction）

任务定义

Baseline方法

评估指标

5. 实验结果分析

5.1 BEV检测结果

定量结果

定性分析

5.2 MOT结果

定量结果

挑战分析

5.3 轨迹预测结果

定量结果

关键发现

定性结果

5.4 数据集对比

6. 总结与展望

6.1 论文贡献总结

6.2 技术亮点

6.3 实际应用场景

6.4 未来工作方向

6.5 局限性

7. 如何使用H-V2X数据集

7.1 数据集获取

7.2 数据集结构

7.3 数据格式

7.4 评估工具

结语

三相PWM整流器有限集模型预测电流控制Simulink仿真模型

火山引擎AI大模型加持！Qwen-Image-Edit-2509助力电商视觉优化

从伦敦谈判桌说起：当世界开始适应中文节奏

ACE-Step模型支持多风格音乐生成：流行、古典、电子一键切换

基于OpenSpec标准构建：HunyuanVideo-Foley API设计规范公开

Linux环境下运行Qwen3-32B的最佳实践配置