江月年年只相似Xuan 2023-06-03 21:50 采纳率: 71.4%
浏览 69
已结题

ubuntu18.04运行模型,直接死机

离线的服务器ubuntu18.04,但是装了无线网卡,一般只用手机开热点 下载一些缺失的包,不太想重新创虚拟环境、下载各种包,比较麻烦,所以就偷懒了,没有配置新的虚拟环境;
然后训练Yolov7目标检测网络,配置了一个pytorch2.0的虚拟环境(yolo-torch2),然后训练成功;
接着训练SSD,还是在yolo-torch2虚拟环境下训练,运行成功;
再然后在yolo-torch2虚拟环境内训练fasterRCNN,冻结训练50轮,解冻训练150轮,共计200轮,训练时出现out of memory;然后减少batchsize 16-->8,然后重新训练,第一轮刚加载,直接电脑死机,然后自动重启
然后重启电脑,开始训练,依然死机,然后电脑自动重启,无法训练!不知道什么原因,重启后电脑能正常运行,可以打开各种软件,就是无法训练模型,GPU没有损坏,可以正常推理预测图像。
并且,我试着训练YOLOv5s模型,将图像大小从640改成320也能训练,200轮次(证明显卡没坏),但是再训练其他模型就又出现电脑自动重启的问题。
显卡:TITAN RTX ,单卡。
之后我尝试了 将虚拟环境复制到新的虚拟环境中,使用代码: conda create -n fasterrcnn --clone yolo-torch2,在pycharm中将FasterRCNN模型的运行环境 改为 虚拟环境(fasterrcnn),重新训练,死机,然后电脑自动重启

有无其他同行遇到类似的情况,如何解决?
初步尝试的方法是以下这些,但无效
1、找到 /var/crash/ 里面寻找ubuntu系统 错误日志,删除
参考博文: https://blog.csdn.net/moutain9426/article/details/120619447
2、以为是显卡功率问题,修改过TITAN RTX显卡功率 从280w 改成了240w,使用代码 :sudo nvidia-smi -pl 240
参考博文: https://blog.csdn.net/weixin_42064949/article/details/108531506

  • 写回答

5条回答 默认 最新

  • 阳光宅男xxb 2023-06-09 08:48
    关注
    获得2.55元问题酬金

    从你提供的现象来看,训练成功后训练其他模型就出现了out of memory错误。这个错误是内存不足或者缓存不足的错误。尝试该问题的原因有可能是模型太大,内存占用过多,缓存设置不足导致的,建议减小模型大小和训练次数,调大缓存大小,训练完后可以检查下内存和缓存的占用大小,及时释放掉,再去训练其他模型

    评论
  • 少林and叔叔 2023-06-03 22:09
    关注
    获得1.95元问题酬金

    是不是电脑带不动啊,换个配置高一点的计算机试下!

    评论
  • 还有头发的程序员- 2023-06-04 17:38
    关注
    获得0.30元问题酬金

    可能是这几个问题,一个个排查

    1.显卡版本
    ubuntu16.04跑深度学习模型时,图形界面卡顿_yscoder的博客-CSDN博客
    
    ubuntu18.04跑深度学习模型时,图形界面卡顿,其原因是显卡版本和cuda要求的显卡版本不一致
    
    2.cuDNN
    cuDNN 有问题 可能是GPU问题的原因之一??
    
    之前提示 软连接的问题   refer your photo.
    
    3.Ubuntu系统
    4.CPU温度过高
    需要查看log,以确认。
    
    可参考:
    
    服务器正常运行温度范围 & ubuntu查看cpu温度 & cpu温度过高_如果曾经拥有的博客-CSDN博客_服务器查看cpu温度
    
    5. 无线网卡问题
    ubuntu20.04不定时卡死,鼠标和键盘都不可用,且tty无效(rtw_88系列网卡驱动问题)_Torch_HXM的博客-CSDN博客_ubuntu卡死鼠标不能动
    
    
    评论
  • GIS工具开发 2023-06-09 11:21
    关注
    获得1.20元问题酬金

    out of memory提示内存不足,可以增加计算机内存

    评论
  • yy64ll826 2023-06-10 10:11
    关注
    获得1.20元问题酬金

    Ubuntu一直卡死的以及解决方法
    非常详细
    https://blog.csdn.net/guoyihaoguoyihao/article/details/104494025

    评论

报告相同问题?

问题事件

  • 系统已结题 6月11日
  • 创建了问题 6月3日

悬赏问题

  • ¥15 无法加载以下来源的扩展程序
  • ¥30 关于#oracle soa#的问题,请各位专家解答!
  • ¥15 mounriver里怎么对电机初始化是对pwm初始化函数和gpio初始化函数吗
  • ¥15 anaconda第一步就出不来了,文件名错误
  • ¥15 这个排列组合问题的思路哪个地方有错
  • ¥15 首页运行报错,首页运行报错
  • ¥15 jupyter里pandas为什么调用不了
  • ¥15 解决neuralprophet库运行报错
  • ¥20 想通过nas 配置一台iis服务器
  • ¥30 利用python编写元胞自动机教室火灾出逃,计算最佳出逃时间