离线的服务器ubuntu18.04,但是装了无线网卡,一般只用手机开热点 下载一些缺失的包,不太想重新创虚拟环境、下载各种包,比较麻烦,所以就偷懒了,没有配置新的虚拟环境;
然后训练Yolov7目标检测网络,配置了一个pytorch2.0的虚拟环境(yolo-torch2),然后训练成功;
接着训练SSD,还是在yolo-torch2虚拟环境下训练,运行成功;
再然后在yolo-torch2虚拟环境内训练fasterRCNN,冻结训练50轮,解冻训练150轮,共计200轮,训练时出现out of memory;然后减少batchsize 16-->8,然后重新训练,第一轮刚加载,直接电脑死机,然后自动重启
然后重启电脑,开始训练,依然死机,然后电脑自动重启,无法训练!不知道什么原因,重启后电脑能正常运行,可以打开各种软件,就是无法训练模型,GPU没有损坏,可以正常推理预测图像。
并且,我试着训练YOLOv5s模型,将图像大小从640改成320也能训练,200轮次(证明显卡没坏),但是再训练其他模型就又出现电脑自动重启的问题。
显卡:TITAN RTX ,单卡。
之后我尝试了 将虚拟环境复制到新的虚拟环境中,使用代码: conda create -n fasterrcnn --clone yolo-torch2,在pycharm中将FasterRCNN模型的运行环境 改为 虚拟环境(fasterrcnn),重新训练,死机,然后电脑自动重启,
有无其他同行遇到类似的情况,如何解决?
初步尝试的方法是以下这些,但无效
1、找到 /var/crash/ 里面寻找ubuntu系统 错误日志,删除
参考博文: https://blog.csdn.net/moutain9426/article/details/120619447
2、以为是显卡功率问题,修改过TITAN RTX显卡功率 从280w 改成了240w,使用代码 :sudo nvidia-smi -pl 240
参考博文: https://blog.csdn.net/weixin_42064949/article/details/108531506