小ccccc 2023-04-11 19:56 采纳率: 100%
浏览 24
已结题

深度学习中不进行数据增强的验证集应如何做数据划分

深度学习中训练集需要数据增强,验证集和测试集不需要做数据增强,但是如果我的数据(小数据集1000个样本)按照700:300比例分配了训练集和验证集,再对700个训练集的样本进行数据增强(比如增强到2400张图片),训练集和验证集的比例2400:300这样分配合理吗,还是就应该这样分呢,不是要保证一定的比例吗,谢谢。
  • 写回答

2条回答 默认 最新

  • 小ccccc 2023-04-11 20:30
    关注

    回答:1、验证集和测试集不需要扩充,数据扩充指针对训练集。

           2、比例指的是对原始数据划分的比例,不考虑增强后的。
    
           3、首先要明白做数据增强的意义,是为了利用现有训练集的数据,通过增强变换获得更丰富的信息,从而在测试集(验证机)上获得更好的泛化能力;
    
           4、如果先做增强再进行数据集的划分,那么会出现信息泄露的问题,导致同一张图片增强后的多张图片分别出现在训练集和测试集(验证集),那么由于在训练集里见过相似度很高的图片,测试(验证)的准确率就会很高,这时的测试准确率结果是不可靠的。
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 4月19日
  • 已采纳回答 4月11日
  • 创建了问题 4月11日

悬赏问题

  • ¥15 各位请问平行检验趋势图这样要怎么调整?说标准差差异太大了
  • ¥15 delphi webbrowser组件网页下拉菜单自动选择问题
  • ¥15 wpf界面一直接收PLC给过来的信号,导致UI界面操作起来会卡顿
  • ¥15 init i2c:2 freq:100000[MAIXPY]: find ov2640[MAIXPY]: find ov sensor是main文件哪里有问题吗
  • ¥15 运动想象脑电信号数据集.vhdr
  • ¥15 三因素重复测量数据R语句编写,不存在交互作用
  • ¥15 微信会员卡等级和折扣规则
  • ¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
  • ¥15 随身WiFi网络灯亮但是没有网络,如何解决?
  • ¥15 gdf格式的脑电数据如何处理matlab