江月年年只相似Xuan 2023-06-03 21:50 采纳率: 71.4%
浏览 78
已结题

ubuntu18.04运行模型,直接死机

离线的服务器ubuntu18.04,但是装了无线网卡,一般只用手机开热点 下载一些缺失的包,不太想重新创虚拟环境、下载各种包,比较麻烦,所以就偷懒了,没有配置新的虚拟环境;
然后训练Yolov7目标检测网络,配置了一个pytorch2.0的虚拟环境(yolo-torch2),然后训练成功;
接着训练SSD,还是在yolo-torch2虚拟环境下训练,运行成功;
再然后在yolo-torch2虚拟环境内训练fasterRCNN,冻结训练50轮,解冻训练150轮,共计200轮,训练时出现out of memory;然后减少batchsize 16-->8,然后重新训练,第一轮刚加载,直接电脑死机,然后自动重启
然后重启电脑,开始训练,依然死机,然后电脑自动重启,无法训练!不知道什么原因,重启后电脑能正常运行,可以打开各种软件,就是无法训练模型,GPU没有损坏,可以正常推理预测图像。
并且,我试着训练YOLOv5s模型,将图像大小从640改成320也能训练,200轮次(证明显卡没坏),但是再训练其他模型就又出现电脑自动重启的问题。
显卡:TITAN RTX ,单卡。
之后我尝试了 将虚拟环境复制到新的虚拟环境中,使用代码: conda create -n fasterrcnn --clone yolo-torch2,在pycharm中将FasterRCNN模型的运行环境 改为 虚拟环境(fasterrcnn),重新训练,死机,然后电脑自动重启

有无其他同行遇到类似的情况,如何解决?
初步尝试的方法是以下这些,但无效
1、找到 /var/crash/ 里面寻找ubuntu系统 错误日志,删除
参考博文: https://blog.csdn.net/moutain9426/article/details/120619447
2、以为是显卡功率问题,修改过TITAN RTX显卡功率 从280w 改成了240w,使用代码 :sudo nvidia-smi -pl 240
参考博文: https://blog.csdn.net/weixin_42064949/article/details/108531506

  • 写回答

5条回答 默认 最新

  • 阳光宅男xxb 2023-06-09 08:48
    关注
    获得2.55元问题酬金

    从你提供的现象来看,训练成功后训练其他模型就出现了out of memory错误。这个错误是内存不足或者缓存不足的错误。尝试该问题的原因有可能是模型太大,内存占用过多,缓存设置不足导致的,建议减小模型大小和训练次数,调大缓存大小,训练完后可以检查下内存和缓存的占用大小,及时释放掉,再去训练其他模型

    评论

报告相同问题?

问题事件

  • 系统已结题 6月11日
  • 创建了问题 6月3日

悬赏问题

  • ¥15 python:excel数据写入多个对应word文档
  • ¥60 全一数分解素因子和素数循环节位数
  • ¥15 ffmpeg如何安装到虚拟环境
  • ¥188 寻找能做王者评分提取的
  • ¥15 matlab用simulink求解一个二阶微分方程,要求截图
  • ¥30 乘子法解约束最优化问题的matlab代码文件,最好有matlab代码文件
  • ¥15 写论文,需要数据支撑
  • ¥15 identifier of an instance of 类 was altered from xx to xx错误
  • ¥100 反编译微信小游戏求指导
  • ¥15 docker模式webrtc-streamer 无法播放公网rtsp