在机器学习建立预测模型中,使用Bootstrap法,还需要划分训练集,验证集吗?
2条回答 默认 最新
关注
- 这篇博客: 机器学习数据集(训练集、测试集)划分方法中的 自助法(bootstrap) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
以自助采样为基础,每次随机有放回的从数据集D中抽取训练数据,一共m个数据,我们抽取m次,会有相当多的数据一次都没有被抽取到,我们用作测试集。
自助法在数据集较小、难以有效划分时很有用,此外自助法可以从初始数据中产生多个不同的训练集,自助法改变了初始数据集的分布,通常会引入估计偏差,不适用于数据量充足的情况。
有返回采样,每个样本每次被选中的概率就是1m\frac1mm1,则不被选中的概率就是1−1m1-\frac1m1−m1,难么采样m次,仍然不被选中的概率就是(1−1m)m\left (1-\frac1m\right)^m(1−m1)m,这个表达式很熟悉,没错就是重要极限里的核心部分。这个表达式是一个关于m的增函数,也就是说样本不会被采样到的概率随着m增大而增大。但是最终有上界,就是1e\frac1ee1,所以测试集的比例从下界趋向于这个值。
从样本中采样了m次,显然最终的训练集中,有的样本被重复采样了。
以上几种数据集划分是常用的几种方式,但是合适的数据划分方式是不明显的,因为我们很难保证独立同分布。也很难知道多大的数据量适合训练。但是多尝试几个方法可以给我们更多的视野。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报- 这篇博客: 机器学习数据集(训练集、测试集)划分方法中的 自助法(bootstrap) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读: