news 2026/6/21 19:14:24

【深度学习】Grand Challenge、zenodo、huggingface数据集下载

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【深度学习】Grand Challenge、zenodo、huggingface数据集下载

文章目录

  • 01 Grand Challenge 上数据集的下载
  • 02 zenodo上数据集的下载
    • (1)直接在网页上下载
    • (2)使用zenodo_get
    • (3)使用wget
  • 03 hugging face 上数据集的下载
    • (1)直接在网页上下载
    • (2)通过 huggingface_hub 库下载
    • (3)使用 Git LFS
    • (4) hugging face 上数据集的下载 常见问题与解决方案
        • 问题 :网络连接错误 (ConnectionError / ReadTimeout)

01 Grand Challenge 上数据集的下载

之前写过一个Grand Challenge 上数据集的下载的帖子,不再赘述:https://blog.csdn.net/verse_armour/article/details/153273551?spm=1001.2014.3001.5501

02 zenodo上数据集的下载

(1)直接在网页上下载

操作比较简单,但是一般来说比较慢,网络不好的时候容易下载中断,又要重新下载。

(2)使用zenodo_get

github地址:https://github.com/dvolgyes/zenodo_get

  • 安装:直接在虚拟环境中pip安装即可:pip install zenodo-get -i https://pypi.tuna.tsinghua.edu.cn/simple
  • 使用:zenodo_get RECORD_ID_OR_DOI
  • note:这里的RECORD_ID_OR_DOI是zenodo网页url末尾的数字,比如这个数据集就是7260705

    但是我用下来这个工具在下载的时候也容易中断,十几个G的数据集只能下载几百兆,下不完全。

(3)使用wget

直接wget -c https://zenodo.org/api/records/8003760/files/Task2_val.zip/content -O Task2_val.zip

  • -c 参数表示 断点续传(Continue),如果连接断开,重新运行该命令会从断开的地方继续,而不会重新开始。
  • -O Task2.zip 表示将下载的文件重命名为 Task2.zip。

这个方案是我下来最流畅的一个,没有遇到问题。

03 hugging face 上数据集的下载

(1)直接在网页上下载

需要一个一个下载,一般不用。

(2)通过 huggingface_hub 库下载

适用场景: 下载原始文件、大批量文件备份。
安装:pip install huggingface_hub

fromhuggingface_hubimportsnapshot_download# 下载整个数据集仓库到本地snapshot_download(repo_id="shibing624/medical",repo_type="dataset",local_dir="./medical_data",resume_download=True)# 支持断点续传

(3)使用 Git LFS

像克隆 GitHub 仓库一样克隆数据集。注意必须安装 Git LFS,否则大文件只能下到指针文件。
适用场景: 习惯用 Git 管理、需要查看历史版本的用户。

gitlfsinstallgitclone https://huggingface.co/datasets/username/dataset-name

Hugging Face (HF) 是目前最主流的 NLP 和 AI 社区,下载数据集主要有三种方式:Python 代码库(官方推荐)命令行工具Git

以下是详细的下载指南,以及国内用户最常遇到的“网络连接”等问题的解决方案。


(4) hugging face 上数据集的下载 常见问题与解决方案

下载 Hugging Face 数据集时,90% 的问题都集中在网络连接上。

问题 :网络连接错误 (ConnectionError / ReadTimeout)

现象:报错ConnectTimeoutErrorHTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded
原因:国内网络环境连接 Hugging Face 官方服务器不稳定或被阻断。

✅ 解决方案 A:使用 HF-Mirror 镜像站(最推荐)
这是一个国内公益镜像站,完全同步官方资源。

  1. 设置环境变量(在终端运行或写入.bashrc):
    exportHF_ENDPOINT=https://hf-mirror.com
  2. 设置后,正常的 Python 脚本(load_dataset等)无需修改代码,会自动走镜像下载。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 15:09:53

计算机视觉_CNN与目标检测实战

目录引言计算机视觉基础图像的数字化表示图像预处理卷积神经网络(CNN)基础卷积操作池化层激活函数构建完整的CNN模型目标检测基础边界框表示非极大值抑制(NMS)实战项目:简单的目标检测器数据准备简化的YOLO风格检测器训…

作者头像 李华
网站建设 2026/6/21 2:55:46

基于SpringBoot的同城宠物服务管理系统

同城宠物服务管理系统的课题背景 随着城市化进程加快和居民生活水平提高,宠物经济成为新兴消费热点。宠物已从单纯的看家护院角色转变为家庭重要成员,宠物饲养率逐年攀升,带动宠物食品、医疗、美容、寄养等服务需求激增。然而,传统…

作者头像 李华
网站建设 2026/6/19 10:18:53

【深度学习新浪潮】用AI工具解析美联储新闻,搭建量化投资分析流水线

更多分析内容,请参考我们的浮游会播客:美联储降息竟然影响你的钱包?如何把握机会、守住财富? 引言:美联储新闻+AI,解锁投资决策新范式 美联储作为全球货币政策的“锚点”,其利率决议、会议声明、官员讲话等每一条新闻都可能引发全球资产剧烈波动。但传统分析模式面临两…

作者头像 李华
网站建设 2026/6/15 3:33:52

Android 14.0 监听某个app启动或者退出功能实现

1.前言 在进行14.0的系统定制开发中,在某些app的定制过程中,需要知道某个app的启动记录和退出记录, 所以就需要监听某个app的启动和退出的过程,需要在Activity的生命周期中来实现监听功能 2.监听某个app启动或者退出功能实现的核心类 frameworks\base\core\java\android…

作者头像 李华
网站建设 2026/6/21 6:00:09

DNP3设备数据 转 IEC104项目案例

目录 1 案例说明 2 VFBOX网关工作原理 3 准备工作 4 配置网关采集DNP3协议数据 5 启用IEC104协议转发数据 6 测试网关的104功能 7 网关通过4G连接104平台 8 案例总结 1 案例说明 设置网关采集DNP3协议设备数据把采集的数据转成IEC104协议转发给其他系统。 2 VFBOX网关…

作者头像 李华
网站建设 2026/6/21 13:16:11

DDR应用专题总结

一、DDR设计之硬件设计 1.DDR硬件设计是T型结构还是非T型结构,直接关系到DDR能够跑的最高速率 2.DDR核电1.5v/1.8v/2.0v选择很重要,关系到DDR速率是否能够跑高二、MIG复位 1.mig核的init_cmpl概率性性起不来,需要在逻辑中设计一个复位&#x…

作者头像 李华