RuntimeError: CUDA out of memory.

#问题描述：RuntimeError: CUDA out of memory.Tried to allocate 1.86GiB(GPU 3;23.70 GiB total capacity; 20.81 GiB already allocated; 1.10GiB free;20.92 GiB reserved in total by PyTorch)
#代码图片：
使用yolov7训练AI-TOD数据（大概27G左右），训练几个轮次之后会中断程序并报错。
使用yolov7-tiny结构是可以正常训练，使用yolov7标准版会报错

#我的初步解答思路：
1.改batch-size：缩小为8，4，2等，
2.改workers，改为4，2，1等
3.改img-size，将img-size改为【320，320】
以上三种方法可以让训练多几个epochs，但是最多十次左右还是会终止。
4.运行torch.cuda.empty_cache()函数。
放在代码之前没有作用，放在每个epoch后面直接报错
#操作环境及配置
ubuntu系统，3090显卡

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

Leodong. 2023-04-04 09:58

关注

该回答通过自己思路及引用到各个渠道搜索综合及思考,得到内容具体如下：

根据您提供的信息，这个错误是由于GPU内存不足引起的。在训练yolov7标准版时，需要更多的GPU内存，而您的GPU内存已经被占用了大约20.81 GiB，只剩下1.10 GiB的空闲内存。因此，您可以尝试以下方法来解决这个问题：

1. 使用更小的batch size。您已经尝试过这个方法了，可以继续缩小batch size，比如将其设置为1或2。

2. 减小模型的复杂度。如果您的模型太复杂，可以尝试减少卷积层的数量或者使用更小的卷积核。

3. 减小输入图片的大小。您已经尝试过这个方法了，可以继续缩小输入图片的大小，比如将其设置为224x224。

4. 使用更少的worker数。您已经尝试过这个方法了，可以继续减少worker数，比如将其设置为1或2。

5. 使用多GPU训练。如果您的电脑有多个GPU，可以尝试使用多GPU训练来增加GPU内存。

6. 使用混合精度训练。可以尝试使用混合精度训练来将模型参数和梯度转换为半精度浮点数，从而减少GPU内存的使用。

7. 减小模型的输入数据维度。可以通过对图片做降采样或裁剪等方式来减小模型的输入数据维度。

8. 在训练过程中定期调用torch.cuda.empty_cache()函数。该函数可以释放一些没有被使用的GPU内存，但是需要在训练代码中适当的位置调用，否则可能会导致程序崩溃。

以上是一些可能有用的解决方法，您可以尝试其中的一些或者多个来解决这个问题。另外，您可以使用nvidia-smi命令来查看GPU内存的使用情况，以便更好地了解训练过程中GPU内存的变化。

如果以上回答对您有所帮助，点击一下采纳该答案～谢谢

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(3条)

报告相同问题？

关注问题

yolo训练时报错：RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB python 剪枝目标检测
2022-04-12 16:34

回答 1 已采纳降低batchsize的大小，例如8 16
RuntimeError: CUDA out of memory. python pytorch 深度学习
2023-04-04 09:44

回答 4 已采纳该回答通过自己思路及引用到各个渠道搜索综合及思考,得到内容具体如下：根据您提供的信息，这个错误是由于GPU内存不足引起的。在训练yolov7标准版时，需要更多的GPU内存，而您的GPU内存已经被占用
yolo训练报错“CUDA Error: out of memory”（3060显卡6G显存）深度学习目标检测
2022-04-12 15:51

回答 2 已采纳 1 batchsize调到8 也是一样的报错。2 训练前我用nvidia-smi查看GPU显存，已使用0.121G（总共6G），一旦开始训练已使用显存数据就开始上升，最终到5.359G后程
一文解决 RuntimeError: CUDA out of memory. 全网最全
2022-07-29 18:21

辞与不羡的博客 RuntimeError: CUDA out of memory. Tried to allocate 50.00 MiB (GPU 0; 4.00 GiB total capacity; 682.90 MiB already allocated; 1.62 GiB free; 768.00 MiB reserved in total by PyTorch) If reserved memory ...
求助：CUDA的RuntimeError：cuda runtime error (30) python 神经网络
2019-04-27 23:25

回答 6 已采纳 https://github.com/pytorch/pytorch/issues/20990 链接答案来源 import torch torch.cuda.current_device()
RuntimeError: CUDA error: invalid device ordinal 机器学习深度学习神经网络
2021-05-31 11:10

回答 2 已采纳在程序的前面加上，后面的数字要看你的显卡数目，意思是对该程序显示哪几张显卡可以使用。如果只有一张的话，要改成0.然后就是torch设置显卡的问题。最好这么写：torch.device('cuda:
tensorflow.python.framework.errors_impl.InternalError: CUDA runtime implicit initialization on GPU:0 failed. Status: out of memory git python tensorflow 机器学习深度学习
2020-09-10 13:59

回答 2 已采纳感觉是显存爆了，把你的batch size搞小一些训练，再不行，简化下模型。
PyTorch 显存爆炸｜RuntimeError: CUDA out of memory. 如何排查问题？
2023-10-09 15:46

脆皮小盒的博客 torch有时候跑着跑着显存吃满了，就会报错：RuntimeError: CUDA out of memory. Tried to allocate 916.00 MiB (GPU 0; 6.00 GiB total capacity; 4.47 GiB already allocated; 186.44 MiB free; 4.47 GiB reserved ...
RuntimeError: Tensors of type TensorImpl do not have strides python pytorch 深度学习
2022-09-19 20:02

回答 5 已采纳请问这里面的数据是怎样的 ./data/products/ogbn_products/mapping/labelidx2productcategory.csv.gz我跑跑看，光这样子暂时排查不出什么问
不知道为什么报了panic: runtime error: invalid memory address or nil pointer dereference golang
2020-09-24 19:26

回答 1 已采纳导致这个错误的原因是内存为null，内存没有初始化，具体看下报错的行
pytorch报错CUDA error: invalid device function tensorflow 人工智能机器学习深度学习神经网络
2020-09-05 22:14

回答 1 已采纳检查显示卡是否兼容、驱动程序、cuda sdk和cudaa 的安装。
RuntimeError: CUDA out of memory.
2023-04-05 20:20

八饱粥的博客矩池云出现 RuntimeError: CUDA out of memory. Tried to allocate 958.00 MiB解决办法
Runtime Error：尺寸不匹配 python pytorch 深度学习
2022-01-21 15:04

回答 1 已采纳维度不匹配。他希望你该层的输入为[32, 512, 38, 38]，32位batch size，512为通道数，后面两位是H和W，但是你的卷积之后的通道数在该层只有64通道，16 batch size
报错解决：RuntimeError: CUDA out of memory.
2022-10-26 19:11

AI Player的博客报错解决：RuntimeError: CUDA out of memory.
Pytorch解决 RuntimeError: CUDA out of memory.
2022-11-08 11:11

Zora.wang的博客 Pytorch解决 RuntimeError: CUDA out of memory.
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月4日

悬赏问题

¥15 随身WiFi网络灯亮但是没有网络，如何解决？
¥15 gdf格式的脑电数据如何处理matlab
¥20 重新写的代码替换了之后运行hbuliderx就这样了
¥100 监控抖音用户作品更新可以微信公众号提醒
¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目
¥20 mysql架构，按照姓名分表
¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分
¥15 delphi webbrowser组件网页下拉菜单自动选择问题
¥15 linux驱动，linux应用，多线程

RuntimeError: CUDA out of memory.

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新