对随机划分的数据集预测效果好.按顺序的数据集预测效果差

我在使用多任务私我模型进行回归预测时，当把数据集按 8:2 随机划分为训练集和测试集后，训练集和测试集上的预测效果都很好。当我按照 8:2 的比例，选择前 80% 的数据作为训练集，后 20% 的数据作为测试集时，并且对训练集的数据使用了 shuffle 进行了打乱，模型对测试集的预测效果很差，R2 始终为负值。请问可能是什么原因造成的？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-22 00:20
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

【您想要解决的问题】您的问题是要解决在多任务学习模型中，当使用按顺序划分的数据集（即使训练集已经打乱）进行回归预测时，模型在测试集上的预测效果差，R2 值始终为负的问题。

【问题出现原因】

数据分布不一致：按顺序划分的数据可能在特征分布上与随机划分的数据存在显著差异，导致模型在训练集上学习到的模式不能很好地泛化到测试集。
时间序列特性：如果数据具有时间序列特性，按顺序划分可能会引入时间依赖性，使得模型在测试集上的表现不佳。
过拟合：尽管训练集已经打乱，但模型可能仍然对训练数据过于敏感，导致在测试集上过拟合。
模型复杂度：模型可能过于复杂，导致在训练集上学习到的模式在测试集上不适用。

【问题解决方案】

重新评估数据分布：检查训练集和测试集在特征分布上是否存在显著差异，确保数据集的一致性。
交叉验证：使用交叉验证来评估模型的泛化能力，而不是简单地使用单一的划分比例。
调整模型复杂度：简化模型或使用正则化技术来减少过拟合。
特征工程：检查和处理可能影响模型预测的特征，如异常值、缺失值等。
时间序列分析：如果数据具有时间序列特性，考虑使用时间序列分析方法或确保模型能够处理时间依赖性。

【提供代码】由于没有具体的代码示例，无法提供修改后的代码。但是，可以提供一些通用的代码修改建议：

使用train_test_split函数时，确保设置了shuffle=True以确保数据随机性。
考虑使用cross_val_score函数进行交叉验证，以评估模型的稳定性和泛化能力。
如果模型复杂度过高，考虑减少层数或神经元数量，或使用Dropout等技术。

【代码运行方式】

确保安装了Python和必要的库，如numpy、scikit-learn等。
在Python环境中运行代码，可以使用Jupyter Notebook或任何Python IDE。

【代码预期运行结果】由于没有具体的代码，无法提供预期的运行结果。但是，预期的结果是模型在测试集上的R2值应该接近于1，表示模型具有良好的预测性能。

【推荐相关链接】

Scikit-learn 用户指南
机器学习中的交叉验证
过拟合与正则化
时间序列分析基础
特征工程的重要性
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

给定比例随机划分训练集、验证集和测试集
2023-05-07 13:50

1、在Windows平台下使用Python编写，Unix/Linux也可以使用 2、适用于任何监督学习任务的数据集划分：该数据集划分方法可用于分类、回归等任何监督学习...5、划分的方法为随机抽样，非大多数类似脚本按顺序划分数据集。
机器学习实战：6种数据集划分方法详解与代码实现
2025-05-07 22:40

慕婉0307的博客分类问题务必使用stratify参数不同数据格式需要适配不同的划分策略时间序列数据不能随机划分大数据集可使用简单划分，小数据集推荐交叉验证记住：好的开始是成功的一半，合理的数据划分是构建优秀模型的基础！
【Python】数据集随机划分为训练集、测试集、验证集（图像和标签）
2024-12-29 11:52

阿齐Archie的博客红框下面的两个路径会自动生成文件夹，并在这俩个文件夹里自动生成多个文件夹为随机划分为训练集、测试集、验证集的图像和标签。如下图红框处为源数据集的图片和标签样本文件夹路径，替换为你的即可。
数据预处理（随机过采样、标签编码、独热编码、随机划分数据集、标准化）
2024-12-01 20:25

数据预处理是机器学习中不可或缺的一步，用于提高模型...随机划分数据集（Random Data Splitting）将数据集随机分为训练集、验证集和测试集（例如 70%:15%:15%），确保每部分样本分布一致，为模型训练和评估提供基础。
基于人工神经网络随机森林和LSTM的径流预测项目_深度学习模型水文数据时间序列分析特征工程预测精度优化模型融合数据预处理训练集验证集测试集划分超参数调优性能评估.zip
2025-09-10 13:56

在本项目中，研究者致力于开发一种结合了人工智能技术的径流预测系统。该系统的核心是集成深度学习模型，包括人工神经网络（ANN）、随机森林（RF）和长短期记忆网络（LSTM），用于分析水文数据的时间序列。时间序列...
深度学习（四）：数据集划分
2025-09-09 22:55

却道天凉_好个秋的博客 数据集划分是深度学习建模中的关键环节。合理的划分能确保模型在训练中有效学习，并在实际应用中保持良好的泛化性能。三分法则：训练、验证、测试三部分不可混淆，比例需结合数据规模合理设定。分布一致性：各划分...
使用datasets.ImageFolder()划分数据集并打乱顺序（简单易懂）
2022-07-07 21:36

TycoonL的博客二、测试结果用了十类的图片数据集测试，结果数据集成功被打乱了！网上其它的代码只进行划分忽略了打乱这个环节
AI工程师必修课：数据集划分的重要性与三大集合详解
2025-08-14 11:37

一起学AI大模型~的博客训练集（Training Set）、验证集（Validation Set）和测试集（Test Set）。这一划分不仅是AI建模的基础步骤，也直接影响模型的性能评估和泛化能力。
YOLO数据集随机划分工具分享以及原理详解
2025-11-07 11:33

AI棒棒牛的博客这篇文章介绍了一个用于划分YOLO格式数据集的Python工具，能够将原始数据集按比例随机划分为训练集、验证集和测试集。核心功能包括多格式图像支持、文件完整性检查和比例验证，默认采用6:2:2的比例划分。文章详细...
【数据集划分】oracle数据集划分（总结版）
2024-06-06 18:07

是Yu欸的博客假如你有超百万条oracle数据库数据，那么一直使用的代码：`train_df, temp_df = train_test_split(df, test_size=0.3, random_state=42)`，很可能1h还没划分完数据。最终解决方案：生成一列随机数，然后随机打乱。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月22日

对随机划分的数据集预测效果好.按顺序的数据集预测效果差

4条回答 默认 最新

问题事件

4条回答默认最新