手把手教你搭建目标检测数据集:从选样本到模型训练的完整指南
一份好的数据集胜过十次调参。本文整理了工业安全、火灾预警、垃圾分类三大热门场景的高质量标注数据集,附下载链接。
一、为什么你训练的目标检测模型总是不准?
很多人在做目标检测项目时,花了大量时间调参、换模型,但精度就是上不去。往往忽略了一个最根本的问题——数据集质量。
一个高质量的目标检测数据集需要满足三个条件:
| 条件 | 说明 |
|---|---|
| 标注精准 | 边界框贴合目标,不漏标、不错标 |
| 场景多样 | 覆盖不同光照、角度、背景,提升泛化能力 |
| 格式规范 | 主流标注格式(YOLO / Pascal VOC / COCO),开箱即用 |
本文整理了安全帽检测、火灾预警、垃圾分类三大热门场景的精选数据集合集,每个合集都经过人工筛选,确保标注质量和场景覆盖度。
二、安全帽/PPE 检测数据集(4 大合集 · 57,000+ 张)
工地和工厂的安全监控是目标检测最落地的场景之一。不戴安全帽 = 安全隐患,实时检测 = 刚性需求。
收录数据集
| 数据集 | 规模 | 格式 | 亮点 |
|---|---|---|---|
| SHWD 安全帽佩戴检测 | 7,581 张 | Pascal VOC | 9,044 正样本 + 111,514 头部样本 |
| PPE Dataset YOLOv8 | 41,361 文件 | YOLO | 覆盖 helmet/gloves/goggles/vest |
| Construction-PPE | Ultralytics 官方 | YOLO | 建筑工地真实场景 |
| SH17 制造业安全 | 8,099 张 | 目标检测 | 17 类 PPE,学术论文级标注 |
适用场景
- 建筑工地安全监控
- 工厂车间 PPE 合规检查
- 智慧工地 AI 摄像头
📥下载链接合集:安全帽检测数据集下载链接合集(CSDN 付费资源,¥6.90)
三、火灾烟雾检测数据集(4 大合集 · 11,000+ 张)
火灾预警是 AI+安防的经典场景。难点在于:火焰和烟雾形态多变,容易与红色车辆、灯光等混淆。
收录数据集
| 数据集 | 规模 | 格式 | 亮点 |
|---|---|---|---|
| DBA-Fire | 3,905 张 | YOLO | 图片质量高,场景多样 |
| DFS 火灾烟雾 | 真实场景 | 目标检测 | 额外标注易混淆物体(灯光等) |
| Kaggle Fire & Smoke | 7,000+ 张 | 图片 | DataCluster Labs 人工审核 |
| Wildfire Smoke | 744+ 张 | Pascal VOC | HPWREN 真实野火监控 |
适用场景
- 森林防火监控
- 工厂/仓库火灾预警
- 智慧城市消防
📥下载链接合集:火灾烟雾检测数据集下载链接合集(CSDN 付费资源,¥6.90)
四、垃圾废弃物检测数据集(3 大合集 · 10,000+ 张)
环保是政策风口,智能垃圾分类赛道正在爆发。从小区垃圾桶到城市街道,再到海洋漂浮垃圾——都有对应数据集。
收录数据集
| 数据集 | 规模 | 格式 | 亮点 |
|---|---|---|---|
| Garbage Detection 6 类 | 10,464 张 | YOLO | 已划分 train/valid/test |
| Waste Classification 44 类 | — | YOLOv8 | 44 细分类别 |
| Yolo Trash Images | 高质量 | YOLO | 标注精准 |
适用场景
- 智能垃圾桶分拣
- 城市环境监测
- 海洋垃圾识别
📥下载链接合集:垃圾废弃物检测数据集下载链接合集(CSDN 付费资源,¥6.90)
五、工业安全行为检测数据集(4 大合集)
除了静态的 PPE,动态行为(叉车碰撞、人员入侵禁区、跌倒等)也是工业安全的核心需求。
收录数据集
| 数据集 | 规模 | 格式 | 亮点 |
|---|---|---|---|
| SH17 制造业安全 | 8,099 张 | 目标检测 | 17 类全方位安全检测 |
| Construction Site Safety | Roboflow | 多格式 | 在线预览标注质量 |
| VisDrone 无人机航拍 | 大规模 | YOLO | 无人机俯拍视角 |
| Forklift 叉车安全 | Roboflow | 多格式 | 叉车与人/障碍物检测 |
📥下载链接合集:工业安全行为检测数据集下载链接合集(CSDN 付费资源,¥6.90)
六、数据集使用指南
1. 训练环境搭建
pipinstallultralytics2. 一键训练
fromultralyticsimportYOLO model=YOLO('yolo11n.pt')# 加载预训练模型model.train(data='data.yaml',epochs=100,imgsz=640)3. 部署建议
| 设备 | 推荐模型 | 推理速度 |
|---|---|---|
| Jetson Orin | YOLO11n | 30+ FPS |
| 树莓派 5 | YOLO11n | 10-15 FPS |
| 服务器 GPU | YOLO11x | 100+ FPS |
七、常见问题
Q: 这些数据集能商用吗?
A: 大部分数据集采用 CC BY 4.0 或 MIT 协议,可用于学习和研究。商业用途请查阅各数据集的原始许可协议。
Q: Pascal VOC 格式怎么转 YOLO?
A: 推荐使用 Roboflow(免费)在线转换,或用 Python 脚本:
importxml.etree.ElementTreeasETdefvoc_to_yolo(xml_path,img_w,img_h,classes):tree=ET.parse(xml_path)root=tree.getroot()yolo_lines=[]forobjinroot.findall('object'):cls=classes.index(obj.find('name').text)bbox=obj.find('bndbox')x_center=(float(bbox.find('xmin').text)+float(bbox.find('xmax').text))/2/img_w y_center=(float(bbox.find('ymin').text)+float(bbox.find('ymax').text))/2/img_h w=(float(bbox.find('xmax').text)-float(bbox.find('xmin').text))/img_w h=(float(bbox.find('ymax').text)-float(bbox.find('ymin').text))/img_h yolo_lines.append(f"{cls}{x_center:.6f}{y_center:.6f}{w:.6f}{h:.6f}")returnyolo_linesQ: 数据集下载不下来怎么办?
A: 所有数据集链接均已验证可访问。如遇 GitHub 下载慢,可使用国内镜像加速;Kaggle 数据集需注册账号后免费下载。
八、总结
| 场景 | 数据集数量 | 总图片量 | CSDN 下载 |
|---|---|---|---|
| 🪖 安全帽/PPE | 4 个 | 57,000+ | ¥6.90 下载 |
| 🔥 火灾烟雾 | 4 个 | 11,000+ | ¥6.90 下载 |
| 🗑️ 垃圾分类 | 3 个 | 10,000+ | ¥6.90 下载 |
| 🏭 工业安全 | 4 个 | 8,000+ | ¥6.90 下载 |
作者:Starry-sky(jing)
CSDN 博客:https://blog.csdn.net/llm765800916
专栏:人工智能Agent从部署到生产