在机器学习建立预测模型中，使用Bootstrap法，还需要划分训练集，验证集吗?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-03-15 14:30
关注
这篇博客: 机器学习数据集（训练集、测试集）划分方法中的 自助法(bootstrap) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
以自助采样为基础，每次随机有放回的从数据集D中抽取训练数据，一共m个数据,我们抽取m次，会有相当多的数据一次都没有被抽取到，我们用作测试集。
自助法在数据集较小、难以有效划分时很有用，此外自助法可以从初始数据中产生多个不同的训练集，自助法改变了初始数据集的分布，通常会引入估计偏差，不适用于数据量充足的情况。
有返回采样，每个样本每次被选中的概率就是1m\frac1mm1，则不被选中的概率就是1−1m1-\frac1m1−m1，难么采样m次，仍然不被选中的概率就是(1−1m)m\left (1-\frac1m\right)^m(1−m1)m，这个表达式很熟悉，没错就是重要极限里的核心部分。这个表达式是一个关于m的增函数，也就是说样本不会被采样到的概率随着m增大而增大。但是最终有上界，就是1e\frac1ee1，所以测试集的比例从下界趋向于这个值。
从样本中采样了m次，显然最终的训练集中，有的样本被重复采样了。
以上几种数据集划分是常用的几种方式，但是合适的数据划分方式是不明显的，因为我们很难保证独立同分布。也很难知道多大的数据量适合训练。但是多尝试几个方法可以给我们更多的视野。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

机器学习理论笔记（二）：数据集划分以及模型选择
2023-08-25 08:20

蓝色是天的博客本文讨论了机器学习中的经验误差和过拟合问题，并介绍了划分训练集和测试集的方法。我们详细介绍了留出法、交叉验证法和自助法这三种常用的数据集划分方法，以及它们各自的优缺点。接着，我们探讨了调参对最终模型的...
7.3 模型评估方法论：训练集、验证集、测试集划分策略
2025-12-19 05:11

FanXing_zl的博客本文系统阐述了机器学习模型评估中的数据集划分策略。核心要点包括：训练集用于参数学习，验证集指导模型调优，测试集提供最终无偏评估，三者必须严格隔离。经典划分方法包括简单留出法和k折交叉验证，后者通过多次...
机器学习中的训练集、验证集、测试集；交叉验证方法
2021-08-26 14:40

条件漫步的博客文章目录1、数据集类型1.1 训练集1.2 验证集1.3 测试集1.4 验证集/测试集区别2、四种交叉验证方法2.1 留出法（holdout cross validation）2.2 k 折交叉验证（k-fold cross validation）2.3 留一法（Leave one out ...
【机器学习】模型训练与验证
2025-01-11 20:45

宇宙核的博客因为训练集和验证集是分开的，所以模型在验证集上面的精度在一定程度上可以反映模型的泛化能力。在划分验证集的时候，需要注意验证集的分布应该与测试集尽量保持一致。本节挑选了常见的一些技巧来讲解，与传统的机器...
深入理解机器学习——数据集的划分与模型评估方法
2022-04-03 14:43

von Neumann的博客通常我们把分类错误的样本数占样本总数的比例称为错误率（Error ...更一般地，我们把学习器的实际预测输出与样本的真实输出之间的差异称为误差（Error），学习器在训练集上的误差称为训练误差（Training Error）/经验误
告别模型“自嗨”：深入浅出，彻底搞懂机器学习的“试金石”——交叉验证法
2026-01-20 11:19

小李独爱秋的博客文章从小明构建电商用户流失预测模型失败的实际案例出发，揭示了单纯依赖训练集准确率的自嗨陷阱。通过多轮模拟考的生动类比，详细解析了交叉验证的核心思想及其数学原理，包括K折交叉验证如何平衡评估偏差与方差。...
掌握机器学习数据集划分
2025-08-19 10:23

快乐非自愿的博客这三种划分数据集的方法各有优缺点和使用场景，熟练掌握这三种方法及其实现，将使我们在机器学习的征程中更加从容地应对各种数据挑战，构建出性能优异、泛化能力强的模型。wang_yb掌握机器学习数据集划分 - wang_yb ...
数据集划分和模型训练
2025-07-29 19:11

dulu~dulu的博客一.训练误差，测试误差，泛化误差二.数据集划分方法 1.旁置法 2.留一法 3.K折交叉验证法 4.自助法三.建模中可能存在的问题 1.数据过拟合 2.预测模型的偏差和方差
Python人工智能课程 AI算法课程 Python机器学习与深度学习 5.决策树随机森林共91页.pptx
2024-07-18 15:30

### Python人工智能课程知识点详解——决策树与随机森林 #### 一、决策树与随机森林概述决策树是一种监督学习方法，用于分类和回归任务。它通过递归地将数据集分割成子集来构建树结构，这个过程基于数据特征的...
基于机器学习的PM2.5浓度预测模型
2024-04-20 01:33

光子AI的博客基于机器学习的PM2.5浓度预测模型 1. 背景介绍 1.1 PM2.5概述 PM2.5是指环境空气中直径小于或等于2.5微米的颗粒物,主要来源于燃煤、机动车尾气排放和工业生产等。PM2.5颗粒物由于体积小、质量轻,可长时间悬浮在空气...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月15日

在机器学习建立预测模型中，使用Bootstrap法，还需要划分训练集，验证集吗?

2条回答 默认 最新

问题事件

2条回答默认最新