sp199720 2023-03-15 11:26 采纳率: 100%
浏览 16
已结题

在机器学习建立预测模型中,使用Bootstrap法,还需要划分训练集,验证集吗?

在机器学习建立预测模型中,使用Bootstrap法,还需要划分训练集,验证集吗?

  • 写回答

2条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2023-03-15 14:30
    关注
    • 这篇博客: 机器学习数据集(训练集、测试集)划分方法中的 自助法(bootstrap) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
    •   以自助采样为基础,每次随机有放回的从数据集D中抽取训练数据,一共m个数据,我们抽取m次,会有相当多的数据一次都没有被抽取到,我们用作测试集。
        自助法在数据集较小、难以有效划分时很有用,此外自助法可以从初始数据中产生多个不同的训练集,自助法改变了初始数据集的分布,通常会引入估计偏差,不适用于数据量充足的情况。
        有返回采样,每个样本每次被选中的概率就是1m\frac1mm1,则不被选中的概率就是1−1m1-\frac1m1m1,难么采样m次,仍然不被选中的概率就是(1−1m)m\left (1-\frac1m\right)^m(1m1)m,这个表达式很熟悉,没错就是重要极限里的核心部分。这个表达式是一个关于m的增函数,也就是说样本不会被采样到的概率随着m增大而增大。但是最终有上界,就是1e\frac1ee1,所以测试集的比例从下界趋向于这个值。
        从样本中采样了m次,显然最终的训练集中,有的样本被重复采样了。
        以上几种数据集划分是常用的几种方式,但是合适的数据划分方式是不明显的,因为我们很难保证独立同分布。也很难知道多大的数据量适合训练。但是多尝试几个方法可以给我们更多的视野。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 3月23日
  • 已采纳回答 3月15日
  • 创建了问题 3月15日

悬赏问题

  • ¥15 微信小程序协议怎么写
  • ¥15 c语言怎么用printf(“\b \b”)与getch()实现黑框里写入与删除?
  • ¥20 怎么用dlib库的算法识别小麦病虫害
  • ¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
  • ¥15 java写代码遇到问题,求帮助
  • ¥15 uniapp uview http 如何实现统一的请求异常信息提示?
  • ¥15 有了解d3和topogram.js库的吗?有偿请教
  • ¥100 任意维数的K均值聚类
  • ¥15 stamps做sbas-insar,时序沉降图怎么画
  • ¥15 买了个传感器,根据商家发的代码和步骤使用但是代码报错了不会改,有没有人可以看看