深度学习中有的项目将图片数据集保存为hdf5文件有什么用？什么时候需要用到hdf5？

看到一些深度学习的项目中，把图片数据集转换为numpy类型，然后保存为hdf5文件，然后再读取文件进行处理和导入神经网络。我有点想不通，保存为hdf5文件有什么用？
如果是为了读取速度快一点，那这些图片也就是一开始导入数据预处理的时候需要读取一次，后面就直接用处理后的numpy类型图片转成tensor类型进行训练。就读一次，就算读快一点也快不了多少吧。
而且假如说原来的数据集有500M，保存hdf5文件3G，这不是还占用更多的内存了吗？
还有一个问题，如果一开始把所有的图片都读进内存，创建自己的Dataset类和Dataloader，如果碰到一些大型的数据集就可能造成内存溢出，有没有什么解决方案？
我想到两种，一种是在dataset类的getitem (self,idx) 里面调用数据生成器，在类里面写一个调用一次就生成一个数据的生成器的函数，此时的idx是没有用的。每次调用的时候随机抽一张图片进行处理，作为一个数据。然后用dataloader包裹，batch_size如果设为32，就会调用32次数据生成器产生32个随机的数据。但是我不确定数据生成器里面怎么样随机抽一张图片，会不会训练了很多次，抽了很多次，结果数据集里面还有图片没有抽到，对效果产生一定影响？还有dataset类里面的len()函数即dataset的长度我应该怎么设置，一个epoch训练完一个len()大小的dataset，利用dataloader每次加载32个数据即一个batch，数据集长度应该是所需要训练的batch的数量×32，那我怎么确定batch的数量要多少？还是说直接设置长度为总共的图片数量即可？
我想到的第二种就是直接不加载所有的图片，而是先生成所有图片的地址保存为csv或者txt格式，然后进行打乱，dataset里面就按照idx读取路径，然后读取到图片进行处理，得到一个数据。然后也用dataloader包裹，两种方法内存中只需要加载当前的32张图片即可。但是按照这种方法的话，也不能使用hdf5保存，因为要用到图片的地址。
所以说在训练的时候，怎么样让占用的cpu内存尽可能小？
图片大小很大但是数量不是很多，图片数量很多但是每张图片不大，这两种情况应该怎么加载数据比较好？
最后，在深度学习图片处理中hdf5文件还有什么用？什么地方需要用到hdf5?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lezilisy 2022-05-21 21:51
关注
刚看到这篇文章：https://blog.csdn.net/mogoweb/article/details/87881405?
转成numpy类型，保存为hdf5文件花了30G！加载到内存里面岂不是直接爆了？我想不通

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何使用GO语言读取HDF5属性，该属性可能是两种不同数据类型之一？ c++
2019-02-21 15:07

回答 1 已采纳 I have confirmed my suspicions and now have a proper answer. The essential problem is that there w
pandas使用HDF5存储文件，对存储模式为table的数据使用select方法进行数据筛选时报错 python 数据分析
2022-03-27 21:37

回答 1 已采纳 store.put('col_2',sales_df2,format='table', data_columns=True) df_2=store.select('col_2', where=["in
python读取和存储hdf5文件无法使用中文路径 python 有问必答
2021-07-15 14:46

回答 3 已采纳何必要在一棵树上吊死呢？试试h5py,这才是读写hdf文件的正确方式。 >>> import h5py >>> with h5py.File(r'D:\数据文件\h
各类深度学习框架详解+深度学习训练环境搭建-GPU版本
2023-10-23 09:55

fanstuck的博客对于人工智能工程师来说，搭建本地深度学习环境来说是比较麻烦的一件事，其中涉及到较多的相关硬件和软件的兼容问题。很多初学者安装的深度学习框架环境仅能够使用CPU运行并没有利用到GPU，关于很多硬件关联的深度...
使用hdf5存文件的速度比使用csv存文件的速度还慢是怎么回事？ python
2023-02-21 22:15

回答 1 已采纳如果数据结构是大量的小数组，是有这个可能的
为什么loss和acc陡然下降如何调整为宜？(深度学习 影像分割分割二值分类 TensorFlow keras unet ) tensorflow 分类深度学习
2022-08-17 10:03

回答 9 已采纳数据增强使用CutMix和Cutout，其中CutMix就是将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值，分类结果按一定的比例分配；Cutout:随机的将样本中的部分区
为什么我不能从Golang中正确读取C常量？
2015-02-10 21:50

回答 1 已采纳 H5T_NATIVE_UINT64 is NOT a constant but a #define that ultimately evaluates to (H5Open(), H5T_NATI
深度学习中超大规模数据集的处理
2019-02-22 16:43

云水木石的博客在机器学习项目中，如果使用的是比较小的数据集，数据集的处理上可以非常简单：加载每个单独的图像，对其进行预处理，然后输送给神经网络。但是，对于大规模数据集(例如ImageNet)，我们需要创建一次只访问一部分数据...
MATLAB如何读取HDF文件 java matlab 学习方法
2023-03-26 15:28

回答 2 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 这个问题的回答你可以参考下: https://ask.csdn.net/questions/7621492这篇博客你也可以参考下：解决Matlab
IDL中的make_array应该用python中的什么函数代替？ python
2023-03-06 16:55

回答 1 已采纳 “Devil组”引证GPT后的撰写：把IDL程序转换成Python可能需要进行一些语言结构和函数的调整，而且需要检查代码中的变量名和文件路径是否正确。如果转换后程序没有输出，有几种可能的原因：代码中
python读取hdf文件报错 python
2022-08-27 21:03

回答 3 已采纳关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：Python读取hdf文件
【图像超分】论文复现：万字长文！Pytorch实现VDSR！血与泪的数据处理与训练过程总结！深度学习中的各种踩坑记录！适合各种深度学习新手！帮助你少走弯路！附PSNR最优的VDSR模型权重文件！
2024-03-18 10:16

十小大的博客【图像超分】论文精读：Accurate Image Super-Resolution Using Very Deep Convolutional Networks (VDSR)请配合上述论文精读文章使用，效果更佳！本文综合现有的VDSR相关代码，用pytorch实现极简风格的VDSR，复现...
HDF5 library version mismatched error的问题 python
2021-05-08 20:07

回答 1 已采纳降
在处理大型机器学习数据文件的时候，主要有哪几种方法？
2019-05-07 17:17

一抹斜阳尽余辉的博客有的机器学习工具/库有默认内存设置，比如Weka。这便是个限制因素。你需要检查下：是否能重新设置该工具/库，分配更多内存。对于Weka，你可以在打开应用时，把内存当作个参数进行调整。 2.用更小的样本你真的需要...
AI基于深度学习的代码搜索案例（一）
2024-01-23 18:30

人工智能MOS的博客以下我们将以CODEnn模型为例，介绍一下模型的原理、如何对数据进行预处理、如何构建并训练模型。我们的目的是要通过自然语言的查询语句来搜索对应的代码，但是自然语言和程序代码是异构的两种数据，直观上找不到任何...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月21日

悬赏问题

¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料
¥15 使用R语言marginaleffects包进行边际效应图绘制
¥20 usb设备兼容性问题
¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊
¥15 安装svn网络有问题怎么办
¥15 vue2登录调用后端接口如何实现

深度学习中有的项目将图片数据集保存为hdf5文件有什么用？什么时候需要用到hdf5？

6条回答 默认 最新

问题事件

悬赏问题

6条回答默认最新