在机器学习建立预测模型中,使用Bootstrap法,还需要划分训练集,验证集吗?
2条回答 默认 最新
关注 - 这篇博客: 机器学习数据集(训练集、测试集)划分方法中的 自助法(bootstrap) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
以自助采样为基础,每次随机有放回的从数据集D中抽取训练数据,一共m个数据,我们抽取m次,会有相当多的数据一次都没有被抽取到,我们用作测试集。
自助法在数据集较小、难以有效划分时很有用,此外自助法可以从初始数据中产生多个不同的训练集,自助法改变了初始数据集的分布,通常会引入估计偏差,不适用于数据量充足的情况。
有返回采样,每个样本每次被选中的概率就是1m\frac1mm1,则不被选中的概率就是1−1m1-\frac1m1−m1,难么采样m次,仍然不被选中的概率就是(1−1m)m\left (1-\frac1m\right)^m(1−m1)m,这个表达式很熟悉,没错就是重要极限里的核心部分。这个表达式是一个关于m的增函数,也就是说样本不会被采样到的概率随着m增大而增大。但是最终有上界,就是1e\frac1ee1,所以测试集的比例从下界趋向于这个值。
从样本中采样了m次,显然最终的训练集中,有的样本被重复采样了。
以上几种数据集划分是常用的几种方式,但是合适的数据划分方式是不明显的,因为我们很难保证独立同分布。也很难知道多大的数据量适合训练。但是多尝试几个方法可以给我们更多的视野。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报- 这篇博客: 机器学习数据集(训练集、测试集)划分方法中的 自助法(bootstrap) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
悬赏问题
- ¥15 微信小程序协议怎么写
- ¥15 c语言怎么用printf(“\b \b”)与getch()实现黑框里写入与删除?
- ¥20 怎么用dlib库的算法识别小麦病虫害
- ¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
- ¥15 java写代码遇到问题,求帮助
- ¥15 uniapp uview http 如何实现统一的请求异常信息提示?
- ¥15 有了解d3和topogram.js库的吗?有偿请教
- ¥100 任意维数的K均值聚类
- ¥15 stamps做sbas-insar,时序沉降图怎么画
- ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看