news 2026/4/17 12:31:29

(数据集)H-V2X:用于纯电动汽车感知的大规模公路数据集

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
(数据集)H-V2X:用于纯电动汽车感知的大规模公路数据集

论文题目:H-V2X: A Large Scale Highway Dataset for BEV Perception(H-V2X:用于纯电动汽车感知的大规模公路数据集)

会议:ECCV2024

摘要:由于路边基础设施感知数据集的可用性,车辆到一切(V2X)技术已经成为研究的一个感兴趣的领域。然而,这些数据集主要集中在城市十字路口,缺乏高速公路场景的数据。此外,由于多个传感器之间的同步数据有限,数据集中的感知任务主要是MONO 3D。为了弥补这一差距,我们提出了高速公路- v2x (H-V2X),这是第一个由现实世界中的传感器捕获的大规模高速公路鸟瞰(BEV)感知数据集。该数据集覆盖了100多公里的高速公路,具有多种道路和天气条件。H-V2X由超过190万个BEV空间的细粒度分类样本组成,由多个同步摄像机捕获,并提供矢量图。我们进行了2D-3D联合校准,以确保正确的投影,并涉及人工以确保数据质量。此外,我们提出了与高速公路场景高度相关的三个任务:BEV检测、BEV跟踪和轨迹预测。我们对每个任务进行了基准测试,并提出了结合矢量地图信息的创新方法。我们希望H-V2X和基准方法能够推动高速公路纯电动汽车感知的研究方向。

该数据集可在https://pan.quark.cn/s/86d19da10d18上获得


H-V2X:首个大规模高速公路BEV感知数据集深度解读

目录

  • 1. 论文概述
  • 2. 研究背景
  • 3. H-V2X数据集介绍
  • 4. 三大Benchmark任务
  • 5. 实验结果分析
  • 6. 总结与展望

1. 论文概述

作者单位:腾讯ADLab

核心贡献

本论文提出了首个大规模高速公路路侧基础设施感知数据集H-V2X,主要贡献包括:

  • 提供190万帧真实高速公路场景数据,覆盖超过100公里
  • 包含1760万个精细标注的3D对象
  • 支持多传感器(5个摄像头+2个雷达)同步数据
  • 提供高精度矢量地图
  • 定义三个benchmark任务:BEV检测、统一ID跟踪、轨迹预测
  • 提供创新的baseline方法

2. 研究背景

2.1 为什么需要高速公路V2X数据集

高速公路是交通运输的关键部分,但安全问题一直存在。虽然智能车辆技术在发展,但大多数车辆仍缺乏先进的驾驶辅助系统。

路侧基础设施感知(V2X)的优势

  • 传感器安装在路侧,覆盖范围广
  • 可以感知车辆盲区和远距离目标
  • 通过5G或RSU与车辆通信
  • 不受单车传感器限制

2.2 现有数据集的局限性

目前的V2X数据集主要存在以下问题:

场景局限:主要集中在城市交叉路口,缺少高速公路场景

任务单一:主要支持单目3D检测(Mono3D),缺少跨传感器的BEV端到端感知

传感器限制:多数依赖LiDAR,但在高速公路场景中,LiDAR安装在桅杆上存在成本高、维护难、感知范围受限等问题

缺少地图融合:未充分利用高精地图(HDMap)信息

2.3 H-V2X的定位

H-V2X数据集填补了高速公路路侧感知的空白,提供了:

  • 真实场景采集的大规模数据
  • 多传感器同步的BEV空间标注
  • 完整的标定参数和矢量地图
  • 统一ID的跨传感器目标跟踪

3. H-V2X数据集介绍

3.1 传感器配置

H-V2X采用了完善的多传感器系统,安装在高速公路中间的桅杆上:

摄像头系统

  • 2个长焦相机:焦距70mm,检测范围大于800米,FOV 9.1度
  • 2个短焦相机:焦距12mm,FOV 49.78度
  • 1个鱼眼相机:焦距1.27mm,FOV 180度,消除桅杆下方盲区

雷达系统

  • 2个长距离雷达:检测范围大于800米
  • 提供速度和航向角信息

技术参数

  • 图像分辨率:1920x1080(普通相机)、1280x1280(鱼眼)
  • 采样频率:10Hz
  • 同步精度:小于50ms(通过NTP服务)
  • 覆盖范围:正负500米,8车道

3.2 数据规模与多样性

整体规模

  • 总帧数:194万帧
  • 总对象数:1760万个
  • 覆盖距离:超过100公里高速公路
  • 类别数量:4类(轿车、卡车、面包车、公交车)

场景多样性

道路类型:

  • 长直道
  • 弯道
  • 立交桥
  • 匝道
  • 高架桥

天气条件:

  • 晴天、雨天、雾天
  • 多云、黄昏、夜间

交通状况:

  • 正常流量
  • 拥堵
  • 稀疏交通

3.3 数据分布特征

类别分布

  • 轿车(Sedan):64.4%
  • 卡车(Truck):32.6%
  • 面包车(Van):2.9%
  • 公交车(Bus):0.1%

关键发现:相比城市数据集,高速公路场景中大型车辆(卡车)占比显著更高,达到32.6%。

速度分布

  • 主要集中在70-100+ km/h
  • 平均速度:轿车约95 km/h,卡车约80 km/h

轨迹长度

  • 78.4%的轨迹长度超过400米
  • 这意味着大部分车辆会穿越多个传感器,形成完整的长距离轨迹

3.4 标定系统

H-V2X提供了三个坐标系统:

  • 图像坐标系
  • 相机坐标系
  • 世界坐标系(矢量地图坐标系)

标定方法

方法1:人工标定工具

  • 使用棋盘格标定相机内参
  • 人工调整外参(x, y, z, yaw, pitch, roll)
  • 确保矢量地图投影与真实车道对齐

方法2:自动标定算法

  • 使用分割模型提取视觉车道线
  • 优化矢量地图车道与视觉车道的3D匹配分数
  • 采用Bundle Adjustment算法
  • 每日自动运行,应对传感器漂移

3.5 创新的标注流程

由于高速公路场景无法使用LiDAR,H-V2X提出了创新的基于摄像头的3D标注流水线:

步骤1:2D检测与跟踪

  • 训练云端基础模型(使用122,445标注数据)
  • 半监督学习扩展到370,000帧
  • mAP达到0.95在IoU=0.5的阈值下
  • 2D MOT提供平滑的边界框和跟踪ID

步骤2:2D到3D投影

  • 将图像平面边界框投影到矢量地图坐标系
  • 利用道路边界信息过滤误检

步骤3:跨传感器目标匹配

  • 使用最小欧氏距离匈牙利匹配策略
  • 合并不同摄像头观测到的同一目标

步骤4:轨迹后处理

  • 扩展卡尔曼滤波平滑轨迹
  • 生成BEV空间的统一跟踪ID
  • 雷达提供速度和航向角

步骤5:人工质量验证

  • 移除幻影轨迹(BEV中存在但图像中不存在的轨迹)
  • 移除异常断裂的轨迹
  • 标注4个类别

最终结果:生成17,560,000个高质量标注样本


4. 三大Benchmark任务

4.1 任务1:BEV检测(H-V2X-Det)

任务定义

给定时刻t的多个传感器输入,BEV检测的目标是找到一个神经网络F,输出所有图像视角中对象的3D信息:

输入:

  • 5个摄像头的图像
  • 矢量地图M

输出:

  • 类别、置信度
  • 3D位置(x, y, z)
  • 尺寸(w, l, h)
  • 航向角yaw
  • 颜色
任务特点

与传统自动驾驶BEV检测的区别:

检测范围更大

  • 传统自动驾驶:正负60米
  • H-V2X:正负500米

相机类型多样

  • 长焦相机、短焦相机、鱼眼相机

深度融合HDMap

  • 车道线和道路边界作为关键输入
  • 提供静态道路信息
H-BEV模型

论文提出了H-BEV(Highway BEV)模型,这是一个融合鱼眼相机和矢量地图的BEV检测网络。

核心创新:利用HDMap简化深度估计

传统BEVDet需要学习每个像素的大量离散深度值,H-BEV利用HDMap信息:

  • 从HDMap通过插值得到单一深度值
  • 图像特征图尺寸减少500倍
  • 显著提升速度和效率

模型流程

输入:5个摄像头图像 + 矢量地图 ↓ 特征提取(ResNet-18 backbone) ↓ 利用HDMap生成Frustum点云 ↓ BEV空间特征融合 ↓ 检测头 + 属性预测头 ↓ 输出:3D检测结果
评估指标

AP(Average Precision)

  • 使用40个recall位置
  • 计算平均精度

FPS(Frames Per Second)

  • 衡量实时性能
  • 测量单帧处理时间

4.2 任务2:统一ID多目标跟踪(H-V2X-Trk)

任务定义

MOT任务的核心是为每个相关的交通参与者建立和维护唯一的ID。

输入:连续的图像序列

输出

  • 完整的3D对象信息(位置和属性)
  • 每个对象的唯一ID
  • 对象轨迹:S = {o1, o2, o3, ..., oT}
两种范式

方法1:Tracking-by-Detection(本文采用)

  • 两阶段过程
  • 先检测目标位置
  • 再关联连续帧中的目标
  • 分配正确的ID

方法2:Joint Detection and Tracking

  • 端到端方法
  • 同时进行检测和跟踪
  • 学习检测特征和re-identification特征
Baseline方法

H-V2X提供了基于SORT算法的baseline:

核心组件

  • 卡尔曼滤波:运动估计和预测
  • 匈牙利算法:目标匹配
  • 欧氏距离:相似度度量
  • Track管理:处理新生和丢失的目标

运动模型

使用3D坐标(x, y, z)作为测量值,一阶差分(速度分量vx, vy, vz)融入状态转移矩阵。

评估指标

MOTA(Multiple Object Tracking Accuracy)

综合考虑假阴性、假阳性和ID切换:

MOTA = 1 - (FN + FP + IDS) / GT

其中:

  • FN:假阴性(漏检)
  • FP:假阳性(误检)
  • IDS:ID切换次数
  • GT:真实目标数量

MOTP(Multiple Object Tracking Precision)

测量预测边界框中心与真实边界框中心的平均欧氏距离。

IDS(ID Switch)

单独衡量跟踪算法保持目标身份一致性的能力。

4.3 任务3:轨迹预测(H-V2X-Prediction)

任务定义

基于观测到的历史轨迹,预测对象未来一段时间内的连续轨迹。

输入

  • 历史轨迹:p1, p2, p3, ..., pt
  • 矢量地图M

输出

  • 未来轨迹:pt+1, pt+2, ..., pt+T
  • T为预测时间步数(1-5秒)
Baseline方法

Baseline 1:Vanilla SocialGAN

基于SocialGAN实现:

  • 使用LSTM编码历史轨迹
  • 使用GAN生成未来轨迹
  • 数据增强:位置添加随机噪声[-2m, 2m],方向添加高斯噪声[-0.785, 0.785]弧度
  • 训练500,000次迭代

Baseline 2:HD-GAN(本文提出)

融合HDMap信息的改进版本:

核心创新:使用全局地图信息提取对象的全局位置特征

模型组件

  1. HDMap Layer:输入车道线信息
  2. HDMap Normalization Layer:计算对象全局位置,归一化到[0,1]
  3. HDMap Encoder Layer:编码全局地图位置特征
  4. Generator:LSTM + Pooling + 全局特征融合
  5. Discriminator:判别真假轨迹
评估指标

ADE(Average Displacement Error)

测量预测位置与实际位置之间的平均误差:

对每个时间步计算欧氏距离,然后取平均。

FDE(Final Displacement Error)

测量预测的最终位置与实际最终位置之间的误差:

只计算最后一个时间步的欧氏距离。


5. 实验结果分析

5.1 BEV检测结果

定量结果
方法BackbonemAP3DmAPbevFPS
Late Fusion-31.7533.2410
Early Fusion (H-BEV)ResNet-1835.4938.406

关键发现

  1. Early Fusion显著优于Late Fusion

    • mAP3D提升:3.74个百分点(+11.8%)
    • mAPbev提升:5.16个百分点(+15.5%)
  2. 速度差异可接受

    • Late Fusion:10 FPS
    • Early Fusion:6 FPS
    • 都满足实时要求
定性分析

Late Fusion的问题

  • 对标定参数更敏感
  • 截断和遮挡目标检测效果差
  • 依赖2D检测质量

Early Fusion的优势

  • 更鲁棒
  • 端到端学习
  • 更好地处理困难情况

HDMap的作用

  • 简化深度估计:从离散多值到单一值
  • 特征图大小减少:原始尺寸的1/500
  • 统一处理鱼眼和针孔相机的投影

5.2 MOT结果

定量结果
指标MOTAMOTPIDS
Baseline0.850.950.05

结果解读

  • MOTA=0.85:总体跟踪准确率良好
  • MOTP=0.95:位置精度很高
  • IDS=0.05:ID切换较少
挑战分析

高速公路场景的MOT面临独特挑战:

高速运动

  • 车速70-100+ km/h
  • 帧间位移大
  • 需要强运动模型

长时间遮挡

  • 立交桥遮挡持续数秒
  • 大型车辆遮挡小车
  • 容易导致ID断裂

近距离混淆

  • 多车并行行驶
  • 单纯距离匹配不足
  • 需要更多特征

改进方向

  • 引入外观特征
  • 加强运动约束
  • 利用车道线信息
  • 结合地图约束

5.3 轨迹预测结果

定量结果

预测不同时长(1-5秒)的ADE和FDE:

ADE结果

预测时长Vanilla SocialGANHD-GAN改进
1秒0.4320.4271.2%
2秒0.8940.8435.7%
3秒1.4301.2919.7%
4秒2.0181.8478.5%
5秒2.6832.4578.4%

FDE结果

预测时长Vanilla SocialGANHD-GAN改进
1秒0.8300.8270.4%
2秒1.8491.6968.3%
3秒3.0312.65712.3%
4秒4.3823.87911.5%
5秒5.8335.18811.1%
关键发现

地图信息的重要性

  • 短期预测(1-2秒):地图作用有限
  • 长期预测(3-5秒):地图作用显著增强
  • 预测时间越长,全局位置信息越重要

数据增强的效果

对比有无数据增强:

  • 无增强:对观测轨迹抖动敏感
  • 有增强:鲁棒性显著提高
  • 能更好地处理噪声观测
定性结果

论文展示了可视化结果:

对比A:无地图 vs 有地图

  • 无地图:预测轨迹可能偏离道路
  • 有地图:预测轨迹符合道路约束

对比B:无增强 vs 有增强

  • 无增强:观测抖动时预测误差大
  • 有增强:对抖动有更好的抗干扰能力

5.4 数据集对比

与现有V2X数据集对比:

数据集年份场景样本数覆盖传感器任务
DAIR-V2X-C2022城市12K20kmC+LMono3D
V2X-Seq2023城市11K28路口C+LTrack+Pred
A9-Dataset2022高速1K3kmC+LMono3D
HighD2018高速1.48M420mC(无人机)2D
H-V2X2024高速1.94M100+kmC+RBEV+MOT+Pred

H-V2X的独特优势

  • 唯一的大规模高速公路路侧数据集
  • 最大的样本规模(1.94M)
  • 最长的覆盖距离(100+km)
  • 支持端到端BEV感知
  • 提供矢量地图
  • 统一ID跨传感器跟踪

数据分布差异

高速 vs 城市场景的关键不同:

特征城市场景高速场景
车速0-60 km/h70-100+ km/h
卡车占比约10%32.6%
轨迹长度小于200m78.4%大于400m
检测范围正负100m正负500m

6. 总结与展望

6.1 论文贡献总结

理论贡献

  1. 首次定义高速公路BEV感知任务

    • 扩展检测范围至正负500米
    • 定义统一ID跨传感器跟踪
    • 提出长距离轨迹预测
  2. 提出无LiDAR的3D标注方法

    • 解决高速公路LiDAR不可行的问题
    • 提供完整的标注流水线
    • 人机结合保证数据质量
  3. 提出HDMap深度融合范式

    • H-BEV:地图辅助的BEV检测
    • HD-GAN:地图辅助的轨迹预测
    • 证明全局位置信息的重要性

数据集贡献

  • 规模大:190万样本,1760万对象
  • 覆盖广:100+公里高速公路
  • 质量高:人工验证+算法生成
  • 完整性:图像+标注+地图+标定

Benchmark贡献

  • 定义3个标准任务
  • 提供评估指标和工具
  • 建立baseline方法
  • 开源数据和代码

6.2 技术亮点

亮点1:多类型相机融合

  • 长焦相机:远距离高精度
  • 短焦相机:大视野覆盖
  • 鱼眼相机:消除盲区
  • 统一在BEV空间处理

亮点2:HDMap深度融合

传统vs改进对比:

方面传统BEVH-BEV
深度估计学习大量离散值HDMap提供单一值
特征图很大缩小500倍
鱼眼处理困难简化投影
道路约束

亮点3:统一ID跟踪

  • 跨传感器全局统一ID
  • 追踪目标完整生命周期
  • 支持长距离轨迹分析
  • 78.4%轨迹超过400米

6.3 实际应用场景

智能高速公路

  • 实时交通监控
  • 事故预警
  • 交通流优化
  • 应急响应

V2X协同感知

  • 为车辆提供超视距信息
  • 盲区补充
  • 长距离预警
  • 提升驾驶安全

自动驾驶

  • 高速公路自动驾驶训练
  • 长距离场景理解
  • 多传感器融合研究
  • 边缘场景测试

交通管理

  • 交通统计分析
  • 行为模式识别
  • 违规检测
  • 数据驱动决策

6.4 未来工作方向

数据集扩展

  1. 交通事件标注

    • 违章停车
    • 紧急停车
    • 交通事故
    • 异常行为
  2. 更多场景

    • 极端天气
    • 夜间场景
    • 复杂交织区

算法改进

  1. 更强的MOT

    • 加入外观特征
    • 利用车道信息
    • 改进运动模型
  2. 更好的检测

    • 长距离小目标
    • 遮挡处理
    • 多模态融合
  3. 更准确的预测

    • 意图识别
    • 交互建模
    • 不确定性估计

系统优化

  • 实时性优化
  • 边缘计算部署
  • 轻量化模型
  • 模型压缩

6.5 局限性

地域性

  • 仅覆盖中国高速公路
  • 需要更多国家和地区的数据

类别有限

  • 目前只有4类
  • 可以增加更多细分类别

极端情况

  • 极端天气覆盖有限
  • 需要更多边缘场景

Baseline可改进

  • 当前方法相对简单
  • 还有很大提升空间

7. 如何使用H-V2X数据集

7.1 数据集获取

数据集下载链接:https://pan.quark.cn/s/86d19da10d18

7.2 数据集结构

H-V2X/ ├── images/ # 图像数据 │ ├── long_range_camera_1/ # 长焦相机1 │ ├── long_range_camera_2/ # 长焦相机2 │ ├── short_range_camera_1/ # 短焦相机1 │ ├── short_range_camera_2/ # 短焦相机2 │ └── fisheye_camera/ # 鱼眼相机 ├── annotations/ # 标注数据 │ ├── detection/ # 检测标注 │ ├── tracking/ # 跟踪标注 │ └── prediction/ # 预测标注 ├── calibration/ # 标定参数 │ ├── intrinsics/ # 内参 │ └── extrinsics/ # 外参 ├── vector_map/ # 矢量地图 │ └── hdmap.json └── README.md # 说明文档

7.3 数据格式

检测标注示例:

{ "frame_id": "0001234", "timestamp": 1234567890.123, "objects": [ { "id": 1, "class": "sedan", "bbox_3d": { "x": 100.5, "y": 20.3, "z": 0.0, "w": 1.8, "l": 4.5, "h": 1.5, "yaw": 1.57 }, "velocity": 25.5, "color": "red" } ] }

7.4 评估工具

数据集提供官方评估脚本:

# BEV检测评估 python eval_detection.py --pred results.json --gt annotations/detection/ # MOT评估 python eval_tracking.py --pred tracks.json --gt annotations/tracking/ # 轨迹预测评估 python eval_prediction.py --pred predictions.json --gt annotations/prediction/

结语

H-V2X数据集是V2X和自动驾驶领域的重要里程碑。它不仅填补了高速公路路侧感知数据集的空白,还提出了创新的无LiDAR标注方法和HDMap融合范式。

三大核心价值

  1. 学术价值:为研究者提供高质量benchmark
  2. 工程价值:为实际系统提供训练数据
  3. 产业价值:推动智能高速公路建设

随着数据集的开源,相信会有更多优秀的算法在H-V2X上被提出,推动高速公路智能化和V2X技术的发展。


如果这篇文章对你有帮助,欢迎点赞、收藏和分享!让我们一起推动自动驾驶和V2X技术的发展!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:07:51

三相PWM整流器有限集模型预测电流控制Simulink仿真模型

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

作者头像 李华
网站建设 2026/4/17 7:32:56

火山引擎AI大模型加持!Qwen-Image-Edit-2509助力电商视觉优化

火山引擎AI大模型加持!Qwen-Image-Edit-2509助力电商视觉优化 在电商平台竞争日益激烈的今天,一张高质量、风格统一且信息准确的商品主图,往往能在几秒内决定用户的点击与转化。然而,现实却是:每逢大促,运营…

作者头像 李华
网站建设 2026/4/17 4:03:15

从伦敦谈判桌说起:当世界开始适应中文节奏

从伦敦谈判桌说起:当世界开始适应中文节奏一、谈判桌上的语言革命:中文崛起的标志性时刻(一)从 “被动翻译” 到 “主动定义”:一场无声的规则重构曾几何时,在国际谈判桌上,中国代表往往需要提前…

作者头像 李华
网站建设 2026/4/17 7:32:58

ACE-Step模型支持多风格音乐生成:流行、古典、电子一键切换

ACE-Step模型支持多风格音乐生成:流行、古典、电子一键切换 你有没有试过这样一种场景?在剪辑一段旅行Vlog时,想配一首轻快的吉他民谣;转眼又要做一个科技感十足的产品动画,却需要一曲赛博朋克风的电子合成乐。过去&am…

作者头像 李华
网站建设 2026/4/17 7:43:31

基于OpenSpec标准构建:HunyuanVideo-Foley API设计规范公开

基于OpenSpec标准构建:HunyuanVideo-Foley API设计规范公开 在短视频日均产量突破千万条的今天,一个现实问题愈发凸显:90%的UGC内容仍使用默认背景音乐或无音效,专业级音频制作的高门槛成了内容升级的“隐形天花板”。当用户对沉浸…

作者头像 李华
网站建设 2026/4/16 15:09:23

Linux环境下运行Qwen3-32B的最佳实践配置

Linux环境下运行Qwen3-32B的最佳实践配置 在大模型落地进入“拼工程”的时代,如何在有限的算力预算下实现高性能推理,已成为AI系统工程师的核心课题。尤其当企业面临敏感数据处理、合规审查或高并发服务等需求时,闭源API调用不再可行——私有…

作者头像 李华