在机器学习建立预测模型中,使用Bootstrap法,还需要划分训练集,验证集吗?
2条回答 默认 最新
关注 - 这篇博客: 机器学习数据集(训练集、测试集)划分方法中的 自助法(bootstrap) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
以自助采样为基础,每次随机有放回的从数据集D中抽取训练数据,一共m个数据,我们抽取m次,会有相当多的数据一次都没有被抽取到,我们用作测试集。
自助法在数据集较小、难以有效划分时很有用,此外自助法可以从初始数据中产生多个不同的训练集,自助法改变了初始数据集的分布,通常会引入估计偏差,不适用于数据量充足的情况。
有返回采样,每个样本每次被选中的概率就是1m\frac1mm1,则不被选中的概率就是1−1m1-\frac1m1−m1,难么采样m次,仍然不被选中的概率就是(1−1m)m\left (1-\frac1m\right)^m(1−m1)m,这个表达式很熟悉,没错就是重要极限里的核心部分。这个表达式是一个关于m的增函数,也就是说样本不会被采样到的概率随着m增大而增大。但是最终有上界,就是1e\frac1ee1,所以测试集的比例从下界趋向于这个值。
从样本中采样了m次,显然最终的训练集中,有的样本被重复采样了。
以上几种数据集划分是常用的几种方式,但是合适的数据划分方式是不明显的,因为我们很难保证独立同分布。也很难知道多大的数据量适合训练。但是多尝试几个方法可以给我们更多的视野。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报- 这篇博客: 机器学习数据集(训练集、测试集)划分方法中的 自助法(bootstrap) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
悬赏问题
- ¥15 安装powerbuilder10卡在安装程序正在运行这个页面 没有下一步任何指令
- ¥15 关于mpi的问题:请问遇到这种情况需要怎么解决,出现这个问题后电脑不能进行mpi多核运行只能进行单核运行
- ¥50 微信聊天记录备份到电脑提示成功了,但还是没同步到电脑微信
- ¥15 python怎么在已有视频文件后添加新帧
- ¥20 虚幻UE引擎如何让多个同一个蓝图的NPC执行一样的动画,
- ¥15 fluent里模拟降膜反应的UDF编写
- ¥15 MYSQL 多表拼接link
- ¥15 关于某款2.13寸墨水屏的问题
- ¥15 obsidian的中文层级自动编号
- ¥15 同一个网口一个电脑连接有网,另一个电脑连接没网