MATLAB中如何对数据表随机排序并按7:3比例划分训练集和测试集？

在MATLAB中处理数据集时，如何随机打乱数据表并按7:3比例划分训练集和测试集？假设数据存储在表格变量`dataTable`中，可以使用`randperm`函数随机排序行索引，然后根据比例分割。例如：先获取打乱后的行索引`idx = randperm(height(dataTable));`，接着按7:3比例分配：`trainIdx = idx(1:round(0.7*height(dataTable)));` 和 `testIdx = idx(round(0.7*height(dataTable))+1:end);`。最后通过`dataTable(trainIdx,:)`和`dataTable(testIdx,:)`分别提取训练集和测试集。这种操作常见于机器学习任务的数据预处理阶段，但需要注意确保数据分布一致性，尤其是在分类问题中可能需要分层采样。如何实现更复杂的分层随机划分？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
小小浏 2025-06-14 10:50
关注
1. 基础数据划分方法

在MATLAB中，随机打乱数据并按比例划分训练集和测试集是一项基本操作。以下是使用randperm函数实现7:3比例划分的步骤：

首先获取数据表的高度：`height(dataTable)`。
生成随机排列的行索引：`idx = randperm(height(dataTable));`。
根据比例分割索引：`trainIdx = idx(1:round(0.7*height(dataTable)));` 和 `testIdx = idx(round(0.7*height(dataTable))+1:end);`。
提取训练集和测试集：`dataTable(trainIdx,:)` 和 `dataTable(testIdx,:)`。

这种方法适用于简单的回归或分类任务，但未考虑数据分布的一致性。

2. 数据分布一致性的挑战

在分类问题中，简单随机划分可能导致训练集和测试集中各类别的样本比例不均衡。例如，如果某一类别样本较少，它可能全部进入训练集或测试集，导致模型性能评估失真。

为解决这一问题，需要采用分层采样的方法，确保训练集和测试集中各类别样本的比例与整体数据一致。

% 示例代码：统计类别分布 categories = unique(dataTable.Label); categoryCounts = histcounts(dataTable.Label, [categories; max(categories)+1]); disp(categoryCounts);

3. 分层随机划分的实现

分层随机划分的核心思想是先按类别对数据进行分组，再在每个类别内独立地进行随机划分。以下是具体步骤：

按类别对数据进行分组。
在每个类别内生成随机索引并按比例划分。
合并所有类别的训练集和测试集索引。

以下是实现代码示例：

% 按类别分层划分 trainIdx = []; testIdx = []; for category = categories % 提取当前类别对应的行 categoryRows = find(dataTable.Label == category); shuffledCategoryRows = categoryRows(randperm(length(categoryRows))); % 按比例划分 trainSize = round(0.7 * length(shuffledCategoryRows)); trainIdx = [trainIdx, shuffledCategoryRows(1:trainSize)]; testIdx = [testIdx, shuffledCategoryRows(trainSize+1:end)]; end % 提取训练集和测试集 trainSet = dataTable(trainIdx,:); testSet = dataTable(testIdx,:);

4. 流程图说明

以下是一个分层随机划分的流程图，清晰展示了从数据准备到最终划分的全过程：

graph TD; A[加载数据] --> B[统计类别分布]; B --> C{是否需要分层?}; C --是--> D[按类别分组]; D --> E[类别内随机排序]; E --> F[按比例划分]; C --否--> G[全局随机排序]; G --> H[按比例划分]; F & H --> I[提取训练集和测试集];

流程图中的决策节点“是否需要分层”决定了后续的具体操作路径。

5. 扩展讨论：更复杂的场景

在实际应用中，可能会遇到更复杂的数据划分需求，例如：

时间序列数据：不能随机打乱，需按时间顺序划分。
交叉验证：将数据划分为多个子集以进行多次训练和验证。
不平衡数据：通过过采样或欠采样调整类别比例。

针对这些场景，可以结合MATLAB的高级工具箱（如Statistics and Machine Learning Toolbox）实现更精细的操作。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

数据科学中随机森林特征重要性排序与回归预测的Matlab代码实践
2025-08-28 14:48

主要内容包括数据准备、加载、预处理、划分训练集和测试集、训练随机森林模型、预测及评估模型性能、以及特征重要性排序的具体步骤。文中还提供了具体的Matlab代码片段，帮助读者快速上手实践。适合人群：具备一定...
基于Matlab的秃鹰优化随机森林算法实现及其在分类预测中的应用
2025-08-18 16:32

接着，作者提供了完整的代码框架，包括数据读取、训练集和测试集划分、参数设置、模型训练以及评估。文中还详细解释了如何通过5折交叉验证来选择最佳参数组合，确保模型不会过拟合。此外，文章展示了多种结果可视化...
matlab开发-随机分区日期到培训验证和测试数据的amatlab函数
2019-08-24 04:43

3. **随机化**：函数会使用MATLAB的内置函数（如`randperm`）对日期进行随机排序，以确保数据划分的随机性和公正性。 4. **数据划分**：根据预设的比例，函数会计算每个集合的起始和结束索引，并从中切分数据。 5....
利用Matlab对经典鸢尾花数据集实现决策树算法分类，并绘图
2018-09-14 09:56

天使健的博客最近在学习数据挖掘，其实决策树分类看过去好久了，但是最近慢慢的想都实现...考虑到实现分类起码需要一个数据集，所以我选择了经典的鸢尾花数据集，下载地址：Iris 选择iris.data点击右键连接另存为，即可...
MATLAB大型数据集处理技巧与实战
2025-08-06 08:39

瞬泉的博客本章将对MATLAB处理大型数据集进行概述，包括数据集带来的挑战，以及MATLAB如何在不同的应用场景中应对这些挑战。通过深入理解这些内容，读者可以为后续章节更深入的探讨和学习打下坚实的基础。在本章节中，我们详细...
第一章数据处理篇：数据集读取和构建
2023-06-11 20:39

江米江米的博客简要介绍了cifar数据的使用和pytorch dataset的构建。
从零开始学习数学建模：算法汇总——MATLAB与Python在建模中的应用对比
2024-11-13 22:06

小魏冬琅的博客前言在当今信息时代，数学建模已成为解决现实世界复杂问题的重要工具。无论是在科学研究、工程设计...对于初学者而言，掌握数学建模的基本原理和方法，选择适当的编程语言和工具，是迈向成功应用建模技术的关键一步。
神经网络学习笔记1——BP神经网络原理到编程实现（matlab，python）
2022-01-13 23:46

奥利奥好吃呀的博客神经网络学习笔记1——BP神经网络原理到编程实现（matlab，python）
MATLAB近红外光谱分析：MATLAB编程+BP神经网络+SVM+随机森林+遗传算法+变量降维+卷积神经网络等
2025-07-26 15:11

asyxchenchong888的博客 MATLAB编程及机器学习算法在近红外光谱分析中的应用。内容涵盖MATLAB基础操作、文件处理和绘图技巧；重点讲解BP神经网络、SVM、决策树、随机森林、遗传算法等机器学习算法的原理与MATLAB实现；详细探讨数据预处理、...
MATLAB实现SMOTE算法处理不平衡数据集实战
2025-09-18 04:33

Fitz Hoo的博客 htmltable {th, td {th {pre {简介：SMOTE（Synthetic Minority Over-sampling Technique）是一种广泛应用于机器学习中的过...通过在少数类样本间进行线性插值生成合成样本，SMOTE有效提升了模型对稀有类别的识别能力。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月14日

MATLAB中如何对数据表随机排序并按7:3比例划分训练集和测试集？

1条回答 默认 最新

1. 基础数据划分方法

2. 数据分布一致性的挑战

3. 分层随机划分的实现

4. 流程图说明

5. 扩展讨论：更复杂的场景

问题事件

1条回答默认最新