深度学习运行代码中断,不显示任何提示。如能1.找到原因2.并解决,转账200元以示感激。
问题描述
运行深度学习代码,然后直接中断,就是停止不运行,显卡也停下来,没有任何报错提示。不是在固定的Epoch发生的,像是随机。时而发生,时而运行一段时间再发生。
- 硬件:4090(24G,电竞判客)+i9-14900K+DDR5
- 系统:Ubuntu22.04.3;
- 深度学习环境:Pytorch112,cuda12.1,英伟达驱动535.183.01;
代码:计算机视觉相关的代码,能够在其它服务器上运行不是代码的问题。
运行方式:nohup后台运行。
问题补充
偶尔出现的问题:
服务器的所有外接设备失效,比如网线、鼠标键盘插进去都没有什么反应,需要重启。
已排查的错误:
1.显卡、内存等进行压力测试,并没有报任何错误;
2.主机盖打开,增加散热能力;
3.重装系统n次:重装之后一般能解决,但是过一段时间又出现;
4.限制cpu功率,没办法解决;
5.num_works设为0,仍然出现该问题;
6.pin_memory关闭,还是存在该问题;
7.环境不兼容?cuda改成11.8还是有问题,Pytorch环境倒是没有尝试用其它的,感觉不是这个问题吧;
8.batch_size调小,显存只占用17G左右,目前还在运行中暂时没有出现问题,不过不一定一直不出现-> 还是会中断。
9.不使用nohup后台运行,仍然运行一会后会中断。