sp199720 2023-03-15 11:26 采纳率: 100%
浏览 18
已结题

在机器学习建立预测模型中,使用Bootstrap法,还需要划分训练集,验证集吗?

在机器学习建立预测模型中,使用Bootstrap法,还需要划分训练集,验证集吗?

  • 写回答

2条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2023-03-15 14:30
    关注
    • 这篇博客: 机器学习数据集(训练集、测试集)划分方法中的 自助法(bootstrap) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
    •   以自助采样为基础,每次随机有放回的从数据集D中抽取训练数据,一共m个数据,我们抽取m次,会有相当多的数据一次都没有被抽取到,我们用作测试集。
        自助法在数据集较小、难以有效划分时很有用,此外自助法可以从初始数据中产生多个不同的训练集,自助法改变了初始数据集的分布,通常会引入估计偏差,不适用于数据量充足的情况。
        有返回采样,每个样本每次被选中的概率就是1m\frac1mm1,则不被选中的概率就是1−1m1-\frac1m1m1,难么采样m次,仍然不被选中的概率就是(1−1m)m\left (1-\frac1m\right)^m(1m1)m,这个表达式很熟悉,没错就是重要极限里的核心部分。这个表达式是一个关于m的增函数,也就是说样本不会被采样到的概率随着m增大而增大。但是最终有上界,就是1e\frac1ee1,所以测试集的比例从下界趋向于这个值。
        从样本中采样了m次,显然最终的训练集中,有的样本被重复采样了。
        以上几种数据集划分是常用的几种方式,但是合适的数据划分方式是不明显的,因为我们很难保证独立同分布。也很难知道多大的数据量适合训练。但是多尝试几个方法可以给我们更多的视野。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 3月23日
  • 已采纳回答 3月15日
  • 创建了问题 3月15日

悬赏问题

  • ¥15 安装powerbuilder10卡在安装程序正在运行这个页面 没有下一步任何指令
  • ¥15 关于mpi的问题:请问遇到这种情况需要怎么解决,出现这个问题后电脑不能进行mpi多核运行只能进行单核运行
  • ¥50 微信聊天记录备份到电脑提示成功了,但还是没同步到电脑微信
  • ¥15 python怎么在已有视频文件后添加新帧
  • ¥20 虚幻UE引擎如何让多个同一个蓝图的NPC执行一样的动画,
  • ¥15 fluent里模拟降膜反应的UDF编写
  • ¥15 MYSQL 多表拼接link
  • ¥15 关于某款2.13寸墨水屏的问题
  • ¥15 obsidian的中文层级自动编号
  • ¥15 同一个网口一个电脑连接有网,另一个电脑连接没网