EtaYang 2021-12-19 12:55 采纳率: 50%
浏览 58
已结题

使用pytorch训练网络训练时遇到类似存储吃满的报错现象QAQ

显存没有吃满,降低batch无法解决这个问题,应该和显存没关系
但是降低输入图片resize的尺寸就可以了
报错后程序不工作,等多久都没用,但是还在运行,显存也处于高度占用的情况,就好像突然按了暂停一样。
报错代码如下,给了个半精度训练的函数调用?

--Call--
> /home/eta/anaconda3/envs/PY1.8/lib/python3.9/site-packages/torch/cuda/amp/autocast_mode.py(130)__exit__()
-> def __exit__(self, *args):
(Pdb) --KeyboardInterrupt--

非常感谢

  • 写回答

2条回答 默认 最新

  • 爱晚乏客游 2021-12-20 09:51
    关注

    看下你的参数设置是什么样子的,比如多大的img_size和batch_size会出现这个问题,显存总共多少G,你训练的时候花了多少叫没吃满。
    还有一些时候是用opencv加载数据的话也会出现和pytorch互锁的情况,这种需要设置多线程来加载,也就是你的代码里面的DataLoader 是否设置了num worker,设置的大一些,或者直接改成0不使用多线程加载看看
    另外一种就是多显卡训练,但是你的batch size小于多显卡的个数,导致无法正确分配数据流也会卡住。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 12月28日
  • 已采纳回答 12月20日
  • 修改了问题 12月19日
  • 创建了问题 12月19日

悬赏问题

  • ¥88 实在没有想法,需要个思路
  • ¥15 MATLAB报错输入参数太多
  • ¥15 python中合并修改日期相同的CSV文件并按照修改日期的名字命名文件
  • ¥15 有赏,i卡绘世画不出
  • ¥15 如何用stata画出文献中常见的安慰剂检验图
  • ¥15 c语言链表结构体数据插入
  • ¥40 使用MATLAB解答线性代数问题
  • ¥15 COCOS的问题COCOS的问题
  • ¥15 FPGA-SRIO初始化失败
  • ¥15 MapReduce实现倒排索引失败