如何将Hugging Face数据集下载到本地并加载使用？

在使用Hugging Face数据集时，如何将数据集下载到本地并正确加载是一个常见的技术问题。许多用户不清楚具体的下载和加载步骤，导致程序运行出错或效率低下。例如，在调用`datasets.load_dataset()`时，网络不稳定可能中断下载，或者希望离线使用数据集却不知如何操作。此外，对于大型数据集，直接在线加载会占用大量内存和带宽，影响开发体验。因此，了解如何手动下载数据集文件、将其保存到指定目录，以及通过`load_from_disk()`方法加载本地数据集，是优化工作流程的关键。如何正确配置本地路径和解决缓存相关问题也成为开发者需要掌握的重要技能。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
诗语情柔 2025-05-10 07:25
关注
1. 初步了解：Hugging Face数据集的基本使用

在使用Hugging Face的datasets库时，开发者通常会从在线加载开始。调用datasets.load_dataset()函数是最常见的方法，它允许用户直接通过网络获取所需的数据集。然而，在实际开发中，网络不稳定或数据集过大可能会导致下载失败或效率低下。

以下是一个简单的代码示例，展示如何在线加载一个数据集：

from datasets import load_dataset dataset = load_dataset('imdb') # 在线加载IMDB数据集 print(dataset)

尽管这种方法简单易用，但并不适合所有场景，尤其是需要离线使用或处理大型数据集时。

2. 中级技巧：手动下载与本地加载

为了解决上述问题，Hugging Face提供了load_from_disk()方法，用于加载已经保存到本地磁盘的数据集。以下是具体步骤：

访问Hugging Face官网 (https://huggingface.co/datasets)，找到目标数据集并点击“Download”按钮，手动下载压缩文件。
将下载的文件解压到指定目录。
使用load_from_disk()方法加载本地数据集。

下面的代码展示了如何加载本地数据集：

from datasets import load_from_disk local_path = '/path/to/your/local/dataset' dataset = load_from_disk(local_path) # 加载本地数据集 print(dataset)

3. 高级优化：缓存管理与路径配置

对于频繁使用的数据集，正确配置缓存路径可以显著提升加载速度和减少重复下载。Hugging Face默认会在用户的主目录下创建一个缓存文件夹（如~/.cache/huggingface/datasets），但有时可能需要更改此路径以适应特定需求。

环境变量作用
DATASETS_CACHE 指定全局缓存路径
HUGGINGFACE_CO_HOME 定义Hugging Face工具的根目录

例如，可以通过设置环境变量来更改缓存位置：

export DATASETS_CACHE=/custom/path/to/cache

此外，还可以通过程序动态设置缓存路径：

import os from datasets import load_dataset os.environ['DATASETS_CACHE'] = '/custom/path/to/cache' dataset = load_dataset('imdb')

4. 流程图：数据集加载的完整流程

为了更清晰地理解整个过程，以下提供了一个流程图，描述了从在线加载到本地加载的转换步骤。

graph TD; A[开始] --> B{是否需要离线？}; B --是--> C[手动下载数据集]; B --否--> D[在线加载数据集]; C --> E[解压到本地目录]; E --> F[使用load_from_disk()加载]; D --> G[检查缓存配置]; G --> H[完成加载];
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

环境变量	作用
`DATASETS_CACHE`	指定全局缓存路径
`HUGGINGFACE_CO_HOME`	定义Hugging Face工具的根目录

报告相同问题？

关注问题

Hugging Face代码模型训练相关的训练数据集推荐及使用方法
2024-12-17 17:33

代码简单说的博客后来发现 Hugging Face 的 Datasets 库，里面有各种编程相关的数据集，简直让我大开眼界。特别是对于国内的开发者来说，Hugging Face 的官网可能不太容易访问，不过不用担心，可以通过镜像站点。Hugging Face 上的...
微调DeepSeek LLM：使用监督微调（SFT）与Hugging Face数据集的详细指南
2025-06-18 12:43

大语言模型的博客 DeepSeek LLM是一个强大的开源语言模型，但为了在特定应用中充分发挥其潜力，微调至关重要。
Hugging Face基础了解和简单使用体验
2025-04-04 18:13

缘友一世的博客 Hugging Face基础了解和简单使用体验。
hugging face 使用教程———快速入门
2024-07-24 13:35

TigerZ*的博客本篇存在的意义是快速介绍hugging face使用，梳理主要部件，梳理易混淆概念。原因是：目前hugging face的使用，官方放在了3个地方（参考链接部分）：使用文档、NLP教程、Transformers git的readme 文件，很多重叠...
【Hugging Face平台】基于Transformers库的NLP与CV模型快速入门：涵盖模型、数据集及应用实例介绍
2025-06-09 17:15

Hugging Face作为一个知名的NLP和AI模型托管平台，提供了丰富的预训练模型和数据集资源，涵盖计算机视觉、自然语言处理、语音处理、多模态、表格处理以及强化学习等多个领域。文章还具体讲解了如何使用transformers...
Hugging Face Transformers进阶：模型微调与训练
2025-05-03 19:25

CarlowZJ的博客模型微调是指在预训练模型的基础上，针对...加载数据：使用Dataset类加载数据集。定义模型：加载预训练模型，并根据任务需求添加额外的层（如分类层）。定义优化器和损失函数：选择合适的优化器和损失函数。训练模型。
[轻松加载和使用HuggingFace数据集：从入门到精通]
2024-12-15 21:18

zjhnfmkh的博客 HuggingFace Hub是一个数据丰富的平台，拥有超过5000个数据集，支持100多种语言。这些数据集被广泛应用于多种任务，例如翻译、自动语音识别和图像分类。通过本文，您可以快速上手将HuggingFace数据集引入LangChain...
探秘Hugging Face与DeepSeek：AI开源世界的闪耀双子星
2025-02-11 21:38

奔跑吧邓邓子的博客本文深入探讨 Hugging Face 和 DeepSeek 在 AI 开源领域的卓越贡献，剖析它们的技术优势、应用场景以及对未来 AI 发展的深远影响，带你领略 AI 开源世界的无限魅力。
Hugging Face 核心组件介绍
2025-08-19 22:35

@鱼香肉丝没有鱼的博客是一个开放的人工智能社区和平台，致力于提供方便...在架构上，包含模型库（Model Hub）、数据集库（Datasets）、训练工具（和）、推理部署方案等多个模块，彼此协同支持开发者从模型训练、微调到推理部署的全流程。
学习AI大模型必须要懂得知识点：Ollama 、 Hugging Face 、 vLLM 介绍与AI大模型文件后缀的介绍
2025-02-13 21:13

Json____的博客 vLLM 是一个针对大规模语言模型推理的高效框架，通过优化内存管理、支持分布式...它适用于需要处理超大语言模型的任务，并且能够有效地在本地或分布式环境中运行。好了这三个知识点说完了，接下来再来总结一下。
Hugging Face：现代自然语言处理的领导者
2024-07-20 18:00

一休哥助手的博客自然语言处理（NLP）领域在近年来取得了显著的进步，而Hugging Face作为这一领域的重要推动者，提供了强大的工具和资源，...本文将详细介绍Hugging Face，包括其背景、核心产品和服务、使用指南及其在NLP中的重要作用。
【人工智能】使用Python和Hugging Face构建情感分析应用：从模型训练到Web部署
2025-02-02 15:42

蒙娜丽宁的博客情感分析是自然语言处理（NLP）中的重要任务，它通过分析文本来判断情绪或观点的倾向性。...通过本教程，读者将掌握如何利用Hugging Face的强大工具，在实际项目中高效地进行情感分析，并将其部署为Web
Hugging Face Datasets 库的标准配置文件格式
2025-02-26 13:50

学亮编程手记的博客该数据集采用Hugging Face Datasets 标准格式，专为多项选择式常识推理任务设计。其结构化元信息使开发者能快速理解数据用途、字段含义及任务类型，并通过标准接口高效加载和使用。
本地下载huggingface模型并在服务器上使用流程
2024-06-24 17:54

宇宙计算机的博客我发现：大家加载huggingface模型，基本都是使用这两条代码来下载相关的文件的，所以我们只要找到这两条代码在哪里，就能找到文件的下载位置。但是我还是感觉很奇怪，就是它们是怎么知道需要把模型下载到哪里的，...
Hugging face 详细介绍
2025-06-12 16:00

yang1yu的博客 Hugging Face是一个专注于AI和NLP的开源平台，提供Transformers库、Model Hub模型仓库、Datasets数据集和Spaces演示平台等功能。其主要组件包括pipeline（数据处理流水线）、tokenizer（文本分词和向量化工具）、...
AGI 之【Hugging Face】的【从零训练Transformer模型】之一 [ 如何寻找大型数据集 ] / [ 构建词元分析器 ] 的简单整理
2024-07-22 14:25

仙魁XAN的博客 AGI的能力包括但不限于自我学习、自我改进、自我调整，并能在没有人为干预的情况下解决各种复杂问题。AGI能做的事情非常广泛：跨领域任务执行：AGI能够处理多领域的任务，不受限于特定应用场景。自主学习与适应：AGI...
使用Hugging Face训练自定义重排模型(Reranker)完全指南
2025-04-01 10:00

扫地的小何尚的博客重排模型(Reranker)是一种特殊类型的神经网络模型，专门用于评估查询(query)和文档(document)之间的相关性。...# 自定义数据集示例# 准备数据"query": ["如何训练重排模型?", "深度学习入门教程", "Python编程基础"],
Hugging-Face:拥抱脸笔记本
2021-03-17 06:37

6. **社区**: Hugging Face的社区是其独特之处，用户可以分享笔记、讨论问题，并参与到模型的改进和创新中。 **在Hugging-Face Notebook中的应用** 使用Hugging-Face Notebook，你可以： - **快速试用模型**: ...
GPT-OSS-20B与Hugging Face集成：简化加载与微调
2025-12-04 02:48

般若之镜的博客 GPT-OSS-20B结合Hugging Face实现高效本地加载与微调，采用稀疏激活架构，在16GB内存设备上即可运行，支持LoRA等轻量微调技术，推动大模型平民化与AI民主化。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月10日

如何将Hugging Face数据集下载到本地并加载使用？

1条回答 默认 最新

1. 初步了解：Hugging Face数据集的基本使用

2. 中级技巧：手动下载与本地加载

3. 高级优化：缓存管理与路径配置

4. 流程图：数据集加载的完整流程

问题事件

1条回答默认最新