sklearn加载本地下载的数据集

现在不下载了，但是找不到文件报错

为啥还是报错

def _download_20newsgroups(target_dir, cache_path):
    """Download the 20 newsgroups data and stored it as a zipped pickle."""
    train_path = os.path.join(target_dir, TRAIN_FOLDER)
    test_path = os.path.join(target_dir, TEST_FOLDER)

    if not os.path.exists(target_dir):
        os.makedirs(target_dir)

    logger.info("Downloading dataset from %s (14 MB)", ARCHIVE.url)
    # archive_path = _fetch_remote(ARCHIVE, dirname=target_dir)

    archive_path = r'C:\Users\BigFish\scikit_learn_data\20news-bydate.tar.gz'


    logger.debug("Decompressing %s", archive_path)
    tarfile.open(archive_path, "r:gz").extractall(path=target_dir)
    os.remove(archive_path)

    # Store a zipped pickle
    cache = dict(
        train=load_files(train_path, encoding="latin1"),
        test=load_files(test_path, encoding="latin1"),
    )
    compressed_content = codecs.encode(pickle.dumps(cache), "zlib_codec")
    with open(cache_path, "wb") as f:
        f.write(compressed_content)

    shutil.rmtree(target_dir)
    return cache

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-08-09 22:13
关注
【以下回答由 GPT 生成】

问题的关键在于如何使用sklearn加载本地下载的数据集。根据提供的代码和问题描述，可以看出代码中的下载和解压缩部分已经完成，并将数据存储为pickle文件，接下来将给出加载本地数据集的代码解决方案。

首先，确保已经安装了scikit-learn库。如果没有安装，可以通过以下命令来安装：

pip install -U scikit-learn

接下来，可以使用pickle库来加载pickle文件中的数据。在给出具体代码之前，需要执行以下几个步骤：

确保cache_path（pickle文件路径）是正确的，确保文件存在。
导入必要的库：

import pickle from sklearn.datasets import load_files

下面是加载pickle文件中的数据的代码解决方案：

def load_data_from_pickle(cache_path): with open(cache_path, "rb") as f: compressed_content = f.read() cache = pickle.loads(compressed_content) return cache["train"], cache["test"]

调用该函数并获取训练和测试数据集：

train_data, test_data = load_data_from_pickle(cache_path)

至此，您可以使用train_data和test_data进行数据处理和模型训练。

以下是整个解决方案的总结代码：

import os import tarfile import pickle import codecs import shutil import logging from sklearn.datasets import load_files def _download_20newsgroups(target_dir, cache_path): """下载20个新闻组数据并将其存储为压缩的pickle文件。""" train_path = os.path.join(target_dir, "train") test_path = os.path.join(target_dir, "test") if not os.path.exists(target_dir): os.makedirs(target_dir) logger = logging.getLogger(__name__) logger.info("正在从%s下载数据集（14 MB）", ARCHIVE.url) archive_path = r'C:\Users\BigFish\scikit_learn_data\20news-bydate.tar.gz' logger.debug("正在解压缩%s", archive_path) tarfile.open(archive_path, "r:gz").extractall(path=target_dir) os.remove(archive_path) # 存储为压缩的pickle文件 cache = dict( train=load_files(train_path, encoding="latin1"), test=load_files(test_path, encoding="latin1"), ) compressed_content = codecs.encode(pickle.dumps(cache), "zlib_codec") with open(cache_path, "wb") as f: f.write(compressed_content) shutil.rmtree(target_dir) return cache def load_data_from_pickle(cache_path): with open(cache_path, "rb") as f: compressed_content = f.read() cache = pickle.loads(compressed_content) return cache["train"], cache["test"] # 假设cache_path是pickle文件路径 train_data, test_data = load_data_from_pickle(cache_path)

希望以上解决方案能对您有帮助。如果还有任何问题，请随时提问。

【相关推荐】

你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/356293
你也可以参考下这篇文章：【sklearn的一般流程】数据的获取
同时，你还可以查看手册：sklearn 加州住房数据集中的内容
您还可以看一下千锋老师的机器学习Sklearn全套教程（程序员必备）课程中的算法模型框架介绍小节, 巩固相关知识点
除此之外, 这篇博客: sklearn使用方法中的 2.数据预处理 部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用于sklearn分类的城市二手房数据集
2024-04-09 11:36

该数据集可用于支持机器学习分类任务，并使用Python编程语言中的scikit-learn（简称sklearn）库进行处理。知识点如下： 1. sklearn库概述： sklearn是Python中最流行的机器学习库之一，它提供了一系列简单有效的...
sklearn加载波士顿数据集
2024-05-18 22:13

爱编程的龙傲天的博客加载波士顿数据集
威斯康星州乳腺癌数据集应用[项目源码]
2025-11-15 08:06

通过这些示例代码，读者可以学习如何加载数据集，执行数据预处理，可视化数据特征，以及训练和验证机器学习模型。这些示例不仅帮助读者理解乳腺癌数据集的应用，还指导他们如何将这些方法应用于自己的项目中，从而在...
sklearn加载新闻数据集fetch_20newsgroups出现问题
2024-05-18 22:17

爱编程的龙傲天的博客加载新闻数据集
pytorch+sklearn实现数据加载
2022-11-14 21:15

梁小憨憨的博客之前在训练网络的时候加载数据都是稀里糊涂的放进去的，也没有理清楚里面的流程，今天整理一下，加深理解，也方便以后查阅。
Boston房价数据集攻略[代码]
2025-11-16 06:09

除了从UCI机器学习库下载，还可以通过Python编程语言中的sklearn库来加载这个数据集。sklearn库提供了一个非常便捷的方法，能够帮助研究人员快速导入和利用数据集进行后续的分析和建模工作。使用波士顿房价数据集...
【机器学习领域】基于sklearn的鸢尾花数据集分类实验：数据预处理、模型训练与评估全流程解析了文档的主要内容
2025-08-02 22:09

内容概要：本文档《sklearn简明教程.docx》详细介绍了Python机器学习库scikit-learn的基本功能、使用方法及其在鸢尾花数据集上的实战应用。首先，文档阐述了scikit-learn的核心模块和工具，涵盖数据预处理、模型选择...
加载sklearn covtype数据集出错 fetch_covtype() HTTPError: HTTP Error 403: Forbidden解决方案
2023-02-08 14:42

爱编程的喵喵的博客本文主要介绍了加载sklearn covtype数据集出错 fetch_covtype() HTTPError: HTTP Error 403: Forbidden解决方案，希望能对新手有所帮助。文章目录 1. 问题描述 2. 解决方案
朴素贝叶斯代码实现+鸢尾花数据集
2024-03-10 15:05

在给定的标题"朴素贝叶斯代码实现+鸢尾花数据集"中，我们可以看到这个主题涉及了朴素贝叶斯分类器的实际编程实现，使用的是著名的鸢尾花（Iris）数据集。鸢尾花数据集是一个多分类问题的经典示例，包含三个类别...
机器学习-决策树（以西瓜数据集为例）
2023-03-30 09:22

数据集通常以CSV或Excel格式存储，因此我们可以使用pandas的read_csv或read_excel函数加载数据。数据预处理是任何机器学习项目的关键步骤。在这个例子中，我们需要检查数据是否有缺失值，如果有，我们需要决定是...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月9日

sklearn加载本地下载的数据集

1条回答 默认 最新

问题事件

1条回答默认最新