机器学习，跨个体数据集如何划分

如何实现跨个体的数据集划分，比如有16个人的数据集，将其中一人的数据集作为测试，其余15人数据集做训练集，train_test_split是不是只能做个体内数据集的划分？如果可以，该怎么设置参数哇

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-11-26 20:54
关注
【相关推荐】

这篇文章：机器学习之train_test_split详解也许能够解决你的问题，你可以看下
除此之外, 这篇博客: 机器学习框架及评估指标详解中的 train_test_split函数的详解 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

在机器学习中，我们通常将原始数据按照比例分割为“测试集”和“训练集”

从 sklearn.model_selection 中调用train_test_split 函数

简单用法如下：

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split (train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)

train_data：所要划分的样本特征集

train_target：所要划分的样本结果

test_size：样本占比，如果是整数的话就是样本的数量

random_state：是随机数的种子

随机数种子：其实就是该组随机数的编号，在需要重复试验的时候，保证得到一组一样的随机数。比如你每次都填1，其他参数一样的情况下你得到的随机数组是一样的。但填0或不填，每次都会不一样。

stratify：是为了保持split前类的分布。比如有100个数据，80个属于A类，20个属于B类。

如果train_test_split(... test_size=0.25, stratify = y_all), 那么split之后数据如下：

training: 75个数据，其中60个属于A类，15个属于B类

testing: 25个数据，其中20个属于A类，5个属于B类。

用了stratify参数，training集和testing集的类的比例是 A：B= 4：1

等同于split前的比例（80：20）。通常在这种类分布不平衡的情况下会用到stratify。

将stratify=X就是按照X中的比例分配

将stratify=y就是按照y中的比例分配

整体总结起来各个参数的设置及其类型如下：

主要参数说明：

*arrays 可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框

test_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示测试集占总样本的百分比

②若为整数时，表示测试样本样本数

③若为None时，test size自动设置成0.25

train_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示训练集占总样本的百分比

②若为整数时，表示训练样本的样本数

③若为None时，train_size自动被设置成0.75

random_state：可以为整数、RandomState实例或None，默认为None

①若为None时，每次生成的数据都是随机，可能不一样

②若为整数时，每次生成的数据都相同

stratify：可以为类似数组或None

①若为None时，划分出来的测试集或训练集中，其类标签的比例也是随机的

②若不为None时，划分出来的测试集或训练集中，其类标签的比例同输入的数组中类标签的比例相同，可以用于处理不均衡的数据集

总之在遇到数据集不平衡的情况下可以使用该参数，来调节数据标签的不平衡的情况，我们可以该参数调节

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

kaggle男性体脂率机器学习数据集
2022-11-04 16:39

《基于kaggle男性体脂率数据集的机器学习实践》 kaggle-bodyfat男性体脂率机器学习数据集是一份宝贵的资源，为研究者和数据科学家提供了探索和预测男性体脂率的可能性。该数据集是kaggle平台上的一个经典案例，适合...
深度学习人脸情绪 数据集
2025-06-18 13:43

这种结构使得用户在使用时能够快速定位到所需的数据，也便于在不同的机器学习框架和编程环境中整合和操作。此外，该数据集的标签"面部情绪 数据集"明确指向了其应用场景和研究领域，为研究人员和开发者提供了明确...
人口收入普查数据，可用做机器学习训练
2024-12-05 22:02

这些数据不仅反映了人口分布和经济状况，而且在机器学习领域中，它们可以被用作有效的训练集。机器学习是人工智能的一个分支，它赋予了计算机学习和改进性能的能力，而无需被明确编程。在这一领域中，逻辑回归是一种...
基于机器学习的疫情密切接触人员追踪分析内含数据集和教程.zip
2022-12-22 21:33

"基于机器学习的疫情密切接触人员追踪分析内含数据集和教程"是一个综合性的资源包，旨在帮助用户理解和实践如何利用机器学习和深度学习技术来追踪和分析疫情中的密切接触者。这个压缩包可能包含数据集、代码示例、...
基于机器学习的人脸识别.zip
2024-02-16 10:54

人脸识别技术是人工智能领域的一个重要分支，它基于机器学习算法，尤其是深度学习，来识别人脸特征并进行个体识别。在本项目实践中，我们将深入探讨如何利用机器学习实现高效、精准的人脸检测和识别系统。其中，...
机器学习，体质分类的内容实现。
2022-04-04 21:31

"体质分类的内容实现"这一主题涉及到利用机器学习技术对人体不同体质类型的识别和划分，这在医疗健康、个性化推荐等领域具有广泛的应用前景。首先，我们需要理解什么是机器学习。机器学习是人工智能的一个子领域，...
机器学习-线性回归身高预测
2025-02-21 15:48

这包括数据的清洗、标准化处理、编码分类变量（如性别）以及划分训练集和测试集。 2. 构建模型：利用scikit-learn中的LinearRegression类，我们可以根据训练集数据来训练我们的线性回归模型。在训练过程中，模型会...
基于真实统计数据的保险数据集（10K记录，2特征）CSV
2025-02-06 16:38

该数据集采用CSV格式，意味着它可以在各种软件和编程语言中方便地被读取和处理。在这个特定的数据集中，记录了10,000个个体的汽车保险情况。每条记录包含两个关键特征，这可能是指个体的年龄、性别、婚姻状况、...
基于机器学习的情侣匹配.zip
2024-02-15 16:21

机器学习，作为人工智能的一个重要分支，通过让计算机从数据中自动学习模式，实现预测和决策，而非依赖于显式的编程。在这个项目中，我们可能会涉及到多个关键的知识点，下面将逐一展开。首先，我们需要理解机器...
webkb-data.gtar_数据集_
2021-09-30 00:29

然后，利用编程语言（如Python）和相关的库（如OpenCV、PIL）读取图像，处理元数据，并将数据集划分为训练集、验证集和测试集。在训练模型时，可以采用各种机器学习或深度学习算法，如支持向量机(SVM)、卷积神经网络...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月26日

机器学习，跨个体数据集如何划分

1条回答 默认 最新

问题事件

1条回答默认最新