如何用pandas和sklearn将数据集按正负样本比例8:2划分训练集和测试集？

如何用Pandas和Sklearn按正负样本比例8:2划分数据集？在处理分类问题时，确保训练集和测试集的正负样本比例一致至关重要。使用Pandas加载和预处理数据后，如何借助Sklearn的`train_test_split`方法实现按8:2比例划分，并保持正负样本分布均衡？需设置`stratify`参数为标签列，同时指定`test_size=0.2`。例如：`X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)`。但若数据集中存在严重类别不均衡，该如何进一步优化划分策略以保证模型训练效果？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

舜祎魂 2025-04-19 09:40

关注

1. 数据集划分基础

在机器学习中，数据集的划分是构建模型的关键步骤之一。为了确保训练集和测试集具有相同的正负样本分布，我们需要使用`train_test_split`方法中的`stratify`参数。以下是一个简单的示例代码：


import pandas as pd
from sklearn.model_selection import train_test_split

# 假设数据已加载到DataFrame中
data = pd.read_csv('data.csv')
X = data.drop('target', axis=1)
y = data['target']

# 按8:2比例划分数据集，并保持正负样本分布均衡
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

上述代码中，`test_size=0.2`表示测试集占20%，`stratify=y`确保正负样本比例一致。

2. 类别不均衡问题分析

当数据集中存在严重类别不均衡时，即使使用`stratify`参数，也可能无法充分优化模型效果。以下是常见的类别不均衡场景及影响：

正样本占比远低于负样本（如欺诈检测、疾病诊断等）。
少数类样本可能被忽略或过拟合。
模型性能指标（如准确率）可能失真。

针对这些问题，我们需要进一步优化划分策略。

3. 优化策略：重采样与分层抽样结合

为了解决类别不均衡问题，可以采用以下方法：

方法	描述	适用场景
欠采样	减少多数类样本数量以平衡数据集。	多数类数据充足且不影响模型泛化能力。
过采样	增加少数类样本数量，例如使用SMOTE算法生成合成样本。	少数类数据不足但需保留更多信息。
组合采样	同时应用欠采样和过采样技术。	数据集既需要减少噪声又需要增强少数类。

结合分层抽样，可以在划分数据集之前先进行重采样处理。

4. 流程图：完整数据处理流程

以下是完整的数据处理流程，包含数据加载、预处理、重采样和分层划分步骤：

graph TD; A[加载数据] --> B[检查类别分布]; B --> C{类别是否均衡?}; C --否--> D[应用重采样技术]; D --> E[划分训练集和测试集]; C --是--> E; E --> F[训练模型];

通过该流程，我们可以确保数据集划分合理并有效应对类别不均衡问题。

5. 示例代码：结合SMOTE与分层划分

以下代码展示了如何结合SMOTE算法和`train_test_split`实现优化划分：


from imblearn.over_sampling import SMOTE

# 应用SMOTE算法进行过采样
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X_resampled, y_resampled, test_size=0.2, stratify=y_resampled, random_state=42
)

此代码首先使用SMOTE算法对少数类进行过采样，然后通过`train_test_split`按8:2比例划分数据集。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

OpenCV汽车分类训练：正负样本集实战
2025-06-08 14:19

jie sherry的博客 OpenCV，即Open Source Computer ...训练样本是指在机器学习或深度学习中用于训练模型的数据集。它们由输入数据和对应的目标输出组成，能够引导模型通过学习这些样本来识别数据之间的关联关系，从而做出预测或决策。
MATLAB算法实战应用案例精讲-【数据分析】基于sklearn的异常检测（附matlab、R语言和python代码实现）
2023-01-05 16:58

林聪木的博客和在数据集上表现相当不错。而对离群值很敏感，因此在离群值检测方面表现不佳。但仍可用于异常值检测，但需要微调其超参数nu以处理异常值并防止过度拟合。提供了复杂度更低的实现。而假设数据是高斯分布的并学习一个...
岭回归在自然语言处理中的应用：情感分析和情感预测
2023-06-29 04:49

程序员光剑的博客在自然语言处理领域，情感分析和情感预测是重要的研究领域。情感分析是通过对文本情感倾向的判断，从而理解和把握文本的情感内容；情感预测则是在给定文本的情况下，预测其未来的情感倾向。本文旨在探讨岭回归在自然...
公开数据集分析：从钻石到房价的探索
2025-05-21 04:52

酸甜草莓二侠的博客 数据集是数据科学领域中的一个经典示例，它记录了3000多颗钻石的4C特征：...# 加载数据集# 查看数据集基本信息df.info()以上代码块将展示数据集的概览，包括数据类型和非空值数量，帮助我们了解接下来如何处理数据。
【AI大模型：架构实战】19、大语言模型零样本情感分析实战：无需机器学习训练，96%准确率实现指南
2025-07-15 21:32

无心水的博客零标注成本：省去数据标注环节，降低了对专业标注人员的依赖。零训练开销：无需GPU等昂贵的训练资源，大大降低...未来，随着大语言模型的不断发展和优化，情感分析的精度和效率将进一步提高，其应用场景也将更加广泛。
【机器学习】任务四：使用贝叶斯算法识别葡萄酒类别和使用三种不同的决策树方法（ID3，C4.5，CART）对鸢尾花数据进行分类
2024-09-13 09:00

FooBlaze的博客定义和训练贝叶斯模型# 在测试集上进行预测# 获取预测概率详细解释：我们定义了一个高斯朴素贝叶斯模型，适用于数值特征呈现高斯分布的数据。fit()：这是模型训练的步骤。使用X_train作为输入特征，y_train作为标签...
大数据和智能数据应用架构系列教程之：大数据与人工智能
2023-10-16 01:22

程序员光剑的博客大数据”是指海量、高维、多样化的数据集合。随着人类对数据处理和管理的需求越来越复杂，越来越依赖机器学习、人工智能等新兴技术。在过去的一段时间里，越来越多的人开始关注到“大数据”这一颗龙头。如今，...
自然语言处理之情感分析：Recurrent Neural Networks (RNN)：情感分析模型的训练与优化
2025-05-01 19:53

zhubeibei168的博客在自然语言处理（NLP）领域，循环神经网络（Recurrent Neural Network, RNN）是一种处理序列数据的强大工具。与传统的前馈神经网络不同，RNN能够记住先前的输入，这使得它们在处理如文本、语音等具有时间序列特性的...
【人工智能】—泰坦尼克号数据集机器学习实战案例
2024-06-13 21:14

花花 Show Python的博客泰坦尼克号数据集是一个公开可获取的数据集，源自1912年沉没的RMS泰坦尼克号事件。...数据集分为两个文件：train.csv（训练集）和test.csv（测试集），其中训练集包含了一些已知乘客的生存结果，用于模型训练；
LCQMC中文问题匹配数据集及Python实战项目
2025-06-08 21:56

Ga Ou的博客 LCQMC（Literal-Comparison Question Matching Corpus）数据集是一个面向中文自然语言处理领域的重要语义匹配数据集。它起源于对于理解和评估机器对于语言语义层面理解的需求。随着人工智能技术的发展，特别是在自然...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月19日