EtaYang 2021-12-19 12:55 采纳率: 50%
浏览 58
已结题

使用pytorch训练网络训练时遇到类似存储吃满的报错现象QAQ

显存没有吃满,降低batch无法解决这个问题,应该和显存没关系
但是降低输入图片resize的尺寸就可以了
报错后程序不工作,等多久都没用,但是还在运行,显存也处于高度占用的情况,就好像突然按了暂停一样。
报错代码如下,给了个半精度训练的函数调用?

--Call--
> /home/eta/anaconda3/envs/PY1.8/lib/python3.9/site-packages/torch/cuda/amp/autocast_mode.py(130)__exit__()
-> def __exit__(self, *args):
(Pdb) --KeyboardInterrupt--

非常感谢

  • 写回答

2条回答 默认 最新

  • 爱晚乏客游 2021-12-20 09:51
    关注

    看下你的参数设置是什么样子的,比如多大的img_size和batch_size会出现这个问题,显存总共多少G,你训练的时候花了多少叫没吃满。
    还有一些时候是用opencv加载数据的话也会出现和pytorch互锁的情况,这种需要设置多线程来加载,也就是你的代码里面的DataLoader 是否设置了num worker,设置的大一些,或者直接改成0不使用多线程加载看看
    另外一种就是多显卡训练,但是你的batch size小于多显卡的个数,导致无法正确分配数据流也会卡住。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 12月28日
  • 已采纳回答 12月20日
  • 修改了问题 12月19日
  • 创建了问题 12月19日

悬赏问题

  • ¥15 关于#matlab#的问题:在模糊控制器中选出线路信息,在simulink中根据线路信息生成速度时间目标曲线(初速度为20m/s,15秒后减为0的速度时间图像)我想问线路信息是什么
  • ¥15 banner广告展示设置多少时间不怎么会消耗用户价值
  • ¥16 mybatis的代理对象无法通过@Autowired装填
  • ¥15 可见光定位matlab仿真
  • ¥15 arduino 四自由度机械臂
  • ¥15 wordpress 产品图片 GIF 没法显示
  • ¥15 求三国群英传pl国战时间的修改方法
  • ¥15 matlab代码代写,需写出详细代码,代价私
  • ¥15 ROS系统搭建请教(跨境电商用途)
  • ¥15 AIC3204的示例代码有吗,想用AIC3204测量血氧,找不到相关的代码。