请教如何输出随机划分的测试集和训练集

目前使用以下指令进行划分测试集以及训练集

，但是输出检查后发现测试集和训练集的比例是对的，但是被试和他所以对应的特征值是混乱的，并且特征名和特征值也对应不上，现在的诉求是不知道是这样划分测试集和训练集的方法是错的，还是输出过程中有弄错了，一直没有办法解决这个问题

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-20 21:29
关注
引自免费微信小程序：皆我百晓生

根据您提供的信息，看起来在将特征与对应的 subj 列合并时出现了混淆。这可能是因为在第1行和第2行代码中对 x_train 和 x_test 的处理方式不正确。为了确保每个测试样本都保留其原始的 subj 列，我们需要先将 subj 列从原始数据集中提取出来，然后分别将其添加到训练集和测试集的数据帧中。以下是修改后的代码：

import pandas as pd from sklearn.model_selection import train_test_split # 假设你的原始数据集为 df，其中包含 subj 列和其它特征列 df = pd.read_csv('your_dataset.csv') # 替换为实际数据文件路径 # 提取 subj 列 subjs = df['subj'] # 划分训练集和测试集 x_train, x_test, y_train, y_test = train_test_split(df.drop(['subj', 'group'], axis=1), df['group'], test_size=0.2, random_state=42) # 将 subj 列添加回训练集和测试集 x_train_with_subj = pd.concat([subjs.iloc[x_train.index], pd.DataFrame(x_train, columns=x_train.columns)], axis=1) x_test_with_subj = pd.concat([subjs.iloc[x_test.index], pd.DataFrame(x_test, columns=x_test.columns)], axis=1) # 创建包含 subj、特征和标签的训练集、测试集 DataFrame train_data = pd.concat([x_train_with_subj, pd.Series(y_train, name='group')], axis=1) test_data = pd.concat([x_test_with_subj, pd.Series(y_test, name='group')], axis=1) # 保存训练集和测试集数据到 Excel 文件 output_folder = r"D:\graduate\1\artical\ADNI_radiomic\ext_feature\ext_results\" train_output_path = os.path.join(output_folder, 'train_data.xlsx') test_output_path = os.path.join(output_folder, 'test_data.xlsx') train_data.to_excel(train_output_path, index=False) test_data.to_excel(test_output_path, index=False)

这段代码首先从原始数据集中提取出 subj 列，然后按照你原来的逻辑划分子集。接下来，我们使用 iloc 根据索引将 subj 列添加回训练集和测试集。这样可以确保每个样本的 subj 列与其相应的特征保持一致。

请注意，你需要替换 'your_dataset.csv' 为你的实际数据文件路径。另外，如果你的数据集已经包含了预处理（例如标准化）步骤，那么确保在提取 x_train 和 x_test 之前完成这些预处理操作。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

刚学习编程请教pyhon和Java小问题 java python 开发语言
2022-05-31 12:36

回答 3 已采纳 1.在java和python里，&是算术与，|是算术或2.在java中，逻辑与和逻辑或用&&和||表示，而python里是and和or算术与和逻辑与不可以混用，因为：1.算术与没有短路特性，逻辑与有短
BP神经网络的训练集和测试集可以相同吗？如图中，floor函数为什么要乘以0.8呢？人工智能数据挖掘机器学习神经网络
2020-03-10 11:08

回答 2 已采纳 训练集和测试集可以相同这个问题就好比如果你是一个老师，你出考卷的时候，可以和你上课讲的题目一样么。乘以0.8就是80%训练20%测试
向各位请教，软件测试测试用例
2022-11-24 13:22

回答 1 已采纳回答：简单书写为这样：测试用例的模板这篇文章有详细介绍：https://blog.csdn.net/shulei00/article/details/105613314
c++后端相关(加深记忆，抄的github和小林coding)
2023-09-17 21:29

我是_学习小能手的博客析构函数设为私有，类生成对象就只能定义在堆上，因为c++是静态绑定语言，为类对象分配栈空间时，会先检查类析构函数的访问性，若析构函数不能访问就不能在栈上创建对象；第一阶段，使用 new 在堆上寻找可用内存，...
R语言package问题，请教兄弟姐妹们 r语言
2023-03-08 16:15

回答 1 已采纳尝试在使用 BiocManager::install("安装包 "，force=TRUE)
请教一下数据集的问题 python 机器学习神经网络
2023-03-12 23:18

回答 2 已采纳 https://pan.baidu.com/s/1FZIjD3wbq1Irxouv4kDeoQ
请教一个C编程打印输出图像的算法编程算法
2015-08-04 03:09

回答 5 已采纳 ![图片说明](https://img-ask.csdn.net/upload/201508/04/1438692515_895985.png) 大概就是这样，建立笛卡尔坐标系。用point()
图像识别1：基于相似性度量的二分类实验
2022-01-21 17:52

是Yu欸的博客图像识别1：基于相似性度量的二分类实验一、写在最前面一、实验目的二、实验内容（1）算法设计（2）算法实现 0.1 参数设置 1.1 图像数据的提取 1.2 矩阵拼接和归一化 1.3 留出法划分互斥的训练集和测试集 1.4 ...
请教一下 yolo 深度学习训练图像和推理图像大小的问题 python 人工智能有问必答深度学习
2021-09-24 11:36

回答 2 已采纳影响就是1920x1080的图片在保持长宽比缩放（注意是长边缩放到640，短边不够的用0填充)到640x640的情况下，你的目标不会变成太小，原本5x5大小的物体缩放之后变成一个像素点之类的那肯定就有
请教关于子网划分的问题 http https tcp/ip 有问必答
2022-06-07 12:55

回答 2 已采纳 1）先排序，按照各子网需求从大到小排列：研发中心50人销售中心40人后勤18人采购部7人财务部4人保卫部4人宣传部4人人事部4人信息中心2人2）然后检查掩码与可用主机对照表：255.255.255.2
如何对视频进行数据集标注和实例分割？ python 深度学习
2023-01-02 13:21

回答 1 已采纳深度学习本质是对数值的学习，相比图片依据像素就可以转换成数值，视频做这个过程会更难。如果你想直接对视频进行标注，并使用这些标注训练视频实例分割模型，这样做可能会比较困难，因为视频数据比较复杂，实例分割
盘点我跳过的科研天坑，进坑就是半年白干
2022-01-19 19:33

Evan-yzh的博客两个模型用的同一个数据集，但是训练和测试集划分并不一样，特别有些论文，直接引用他人模型训练出来的精度，连复现都不带的（危）；复现的模型超参数可能和原论文存在出入，或者没有费心去调参。总之，比较模型表现...
请教一道C语言数列求和编程 c++ c语言
2022-04-21 08:23

回答 3 已采纳供参考： #include<stdio.h> #include<stdlib.h> double fun(int n) { /*Begin*/ int i, j
AI创业：合适的机器学习框架
2024-09-12 02:39

AI天才研究院的博客支持多种编程语言，如Python、C++、Java等；丰富的生态系统和第三方库。相对较大的资源消耗，适用于高性能计算环境；学习曲线较陡，对开发者要求较高。本文针对AI创业中合适的机器学习框架及相关面试题进行了详细...
数据结构与算法笔记V0.8（持续更新）
2023-02-27 13:13

十七号城市的博客数据结构 + 算法 = 程序。无论从事前端还是后端，无论使用什么编程语言，只要想进大厂，都绕不开考核数据结构与算法。本文中的代码均用Java编写，当然，也可以使用其他语言来实现。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月20日

悬赏问题

¥15 List<Class>有参构造
¥20 搭建三相栅极电路后高侧浮动地VS存在电容特性
¥20 云卓h12pro 数传问题
¥20 请问有人知道怎么用工艺库里面的sdb文件通过virtuoso导出来library里面每个cell的symbol吗？
¥20 海思 nnie 编译报错
¥50 决策面并仿真，要求有仿真结果图
¥15 springboot接入微信支付SDK
¥50 大区域的遥感影像匹配怎么做啊
¥15 求解答：pytorch跑yolov8神经网络受挫
¥20 Js代码报错问题不知道怎么解决

请教如何输出随机划分的测试集和训练集

6条回答 默认 最新

问题事件

悬赏问题

6条回答默认最新