怎么使用划分后的测试集和训练集？其代码是什么？

代码：


#可视化层次k折划分，k=3
#层次k折划分，每次选其中一折作为测试集，其它为训练集，确保在每次划分时不同类别的样本在测试集与训练集中比例划分，分层根据标签y实现，y为类别标签。
skf_cv=skf.split(X_oversampled,y_oversampled)
kk=[k*j for k,j in enumerate(y_oversampled) if j!=0]
k=1
plt.figure(figsize=(16,3))
for train_indices, test_indices in skf_cv:
    plt.scatter(train_indices,[k]*len(train_indices),marker=".",c="r")
    plt.scatter(test_indices,[k]*len(test_indices),marker="v",c="b")
    print("训练集索引-%d"%k,train_indices)
    print("测试集索引-%d"%k,test_indices)
    k=k+1
plt.scatter(kk,[k]*len(kk),marker="+",c="b")
plt.yticks([1,2,3,4,5,6],["1","2","3","4","5","label"])
plt.ylabel("iteration")
plt.xlabel("index")

输出：

问题：1、这个图片应该怎么解释？为什么label中0和1的比例看起来是1:1？（该数据集不平衡率1:100）
2、怎么使用划分后的测试集和训练集？其代码是什么？（因为感觉看上去并没有像X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)一样输出了数据集）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-15 11:04
关注
引自免费微信小程序：皆我百晓生

首先，让我们逐个解答您的问题。

1、关于图片的解释：您提供的代码是用于可视化层次K折交叉验证（Stratified K-Fold Cross-Validation）的过程。在这个例子中，k=3，这意味着将数据集分成3个部分进行训练和测试。在层次K折中，我们保证每个子集中的类别分布与原始数据集相同，这有助于防止在不平衡的数据集中，某一类别过度出现在测试集或训练集中，从而影响模型评估的准确性。

在图像中，“label”表示类别标签，而“iteration”表示不同的折叠次数。从图中我们可以看到，对于每一次迭代（k值），红色点代表训练集中的样本索引，蓝色三角形代表测试集中的样本索引。当您说“label中0和1的比例看起来是1:1”，可能是因为在这个可视化的例子中，虽然原始数据集的不平衡率是1:100，但为了简化视觉效果，只展示了部分数据点。实际上，在每一层（即每次折叠）中，都会按照类别比例分配样本到训练集和测试集，以保持类别平衡。

2、如何使用划分后的测试集和训练集：在Python中，sklearn.model_selection.StratifiedKFold提供了层次K折划分功能。下面是一个完整的示例，演示如何使用划分后的训练集和测试集来训练和评估一个模型：

from sklearn.datasets import load_iris from sklearn.model_selection import StratifiedKFold from sklearn.linear_model import LogisticRegression from sklearn.metrics import classification_report # 加载数据集 iris = load_iris() X = iris.data y = iris.target # 定义模型 model = LogisticRegression() # 定义层次K折 skf_cv = StratifiedKFold(n_splits=3, shuffle=True, random_state=42) # 遍历每一轮的训练和测试 for fold, (train_index, test_index) in enumerate(skf_cv.split(X, y)): # 分割数据 X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] # 训练模型 model.fit(X_train, y_train) # 预测并评估 predictions = model.predict(X_test) print(f"Fold {fold + 1} - Classification Report:") print(classification_report(y_test, predictions))

这段代码会使用逻辑回归模型对鸢尾花数据集进行层次K折交叉验证。在每次循环中，它都会分割数据为训练集和测试集，然后训练模型，并使用测试集上的预测结果计算分类报告，展示模型在各个类别的性能。

请注意，实际应用中，您可能会想要保存每个折的评估指标（例如准确率、AUC等），以便在所有折叠完成后进行平均，得到最终的模型性能估计。这里只是为了演示如何使用划分后的训练集和测试集进行单次训练和评估。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

为什么在有的Yolov5数据集只划分了训练集和验证集机器学习计算机视觉
2022-05-09 19:49

回答 1 已采纳 训练集相当于课后的作业，用于日常的知识巩固验证集相当于月考，用来纠正和强化学到的知识测试集相当于期末考试，用来最终评估学习效果 测试集并不会影响模型最终的性能。
SVM训练集和测试集的划分 python
2022-12-28 17:55

回答 1 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！可以使用pandas的sample方法来随机选择数据的行，然后使用train_test_split函数将数据分为训练集和测试集。代码我给你写了一份，有
R语言弄训练集和验证集出错 r语言
2021-08-17 01:03

回答 1 已采纳解决好了，用管理员身份启动r studio就可以下载了
python脚本，划分训练集和测试集，coco、voc格式的数据转换成yolo系列数据
2022-06-28 16:10

内容概要：python脚本划分训练集测试集。可以把coco、voc格式的数据转换成yolo系列数据。经过大量实践验证无bug 源代码：python脚本适合人群：学生、具备一定编程基础，工作1-3年的研发人员、想入门人工智能的爱好...
如何预处理图片划分训练集和测试集 pytorch 机器学习计算机视觉
2023-01-23 18:01

回答 3 已采纳比如你的网络需要输入width x height 的灰度图那么你将所有图片读入变量images中，不管是jpg或者bmp或者别的格式；然后将images中的所有图片判断其通道，不是单通道就转换通道，
jupyter notebook中怎么把多维数据划分为测试，验证，训练数据集？ python
2023-02-07 22:48

回答 2 已采纳可以使用 scikit-learn 的 train_test_split 函数来划分多维数据集中的测试，验证，和训练数据集。该函数接受分割比例的参数，可以用来指定将数据集分割成不同大小的子集。可以使用
训练集和测试集几乎一样，该怎么划分人工智能
2021-09-17 09:55

回答 1 已采纳监控视频里面截取的？如果几乎一摸一样，建议删除掉这部分重复的吧，留下一些就可以，多余的对于数据集来说没有多大的意义，反而训练时间变长了。对于数据集来说，最终要的是要看数据的分布情况而不是数量，分布越广
MNIST手写数字数据集和训练代码
2024-03-14 18:11

首先，我们需要加载MNIST数据集，将其划分为训练集和测试集，并进行必要的预处理，如归一化、数据增强等。接着，我们可以定义一个神经网络模型，并设置合适的损失函数和优化器。最后，通过多次迭代训练集，不断调整...
训练集和测试集上多个模型ROC大小排序不一致 r语言支持向量机随机森林
2023-01-13 13:17

回答 1 已采纳你用的平台是什么平台
BP神经网络的训练集和测试集可以相同吗？如图中，floor函数为什么要乘以0.8呢？人工智能数据挖掘机器学习神经网络
2020-03-10 11:08

回答 2 已采纳 训练集和测试集可以相同这个问题就好比如果你是一个老师，你出考卷的时候，可以和你上课讲的题目一样么。乘以0.8就是80%训练20%测试
鸢尾花在划分训练集和测试集时，一直显示这个错误 python 机器学习
2023-02-24 10:58

回答 3 已采纳 train.shap 是什么？漏掉了 e 吧？ train.shape
如何理解和区分训练集、测试集和验证集
2024-02-23 10:35

高斯小哥的博客一文掌握训练集、验证集和测试集！首先，我们回顾了训练集、验证集和测试集的...总结来说，正确划分和使用训练集、验证集和测试集是机器学习项目成功的关键。最后，希望本文能帮助您更好地理解和应用这三个重要概念。
机器学习：划分训练集与测试集 python sklearn 有问必答机器学习
2021-05-20 14:38

回答 2 已采纳 pd.set_option("max_columns", 5) 设置显示最大列数就行
机器学习库sklearn之怎么划分训练集和测试集
2018-09-16 15:24

wuzhiwuweisun的博客训练建模 -> 模型评估 -> 预测，分类。最开始的是获取数据，sklearn已经给出很多的数据集，当然也可以通过sklearn自己创建。 Sklearn里给出的数据集如下：这里具体怎么调用和创建可以参考...
适用于resnet-vgg-mobilenet网络的15种不同场景分类图片数据集(已划分训练集和测试集).zip
2023-05-15 16:47

适用于resnet_vgg_mobilenet网络的15种不同场景分类图片数据集(已划分训练集和测试集).zip 【数据集介绍】该数据集可以直接适用于多种常见分类算法，如resnet、mobilenet、vgg网络等。数据集已划分好训练集和测试...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月15日

悬赏问题

¥20 求下下面这个数据结构代码
¥15 路由器考试怎么办，有懂行的吗 ,eNSP
¥20 前端二进制文件流图片转化异常
¥15 github上的这个C语言项目如何跑起来
¥15 java 判断某个数区间是否存在
¥15 appium控制多个雷电模拟器问题
¥15 C# iMobileDevice
¥15 谁会做这个啊#ensp#Boson NetSim
¥15 如何编写针对TPS6503320FRGE型号的电源管理芯片的编程代码？
¥15 设计简单目录管理系统，要满足以下内容

怎么使用划分后的测试集和训练集？其代码是什么？

6条回答 默认 最新

问题事件

悬赏问题

6条回答默认最新