江月年年只相似Xuan 2023-06-03 21:50 采纳率: 71.4%
浏览 84
已结题

ubuntu18.04运行模型,直接死机

离线的服务器ubuntu18.04,但是装了无线网卡,一般只用手机开热点 下载一些缺失的包,不太想重新创虚拟环境、下载各种包,比较麻烦,所以就偷懒了,没有配置新的虚拟环境;
然后训练Yolov7目标检测网络,配置了一个pytorch2.0的虚拟环境(yolo-torch2),然后训练成功;
接着训练SSD,还是在yolo-torch2虚拟环境下训练,运行成功;
再然后在yolo-torch2虚拟环境内训练fasterRCNN,冻结训练50轮,解冻训练150轮,共计200轮,训练时出现out of memory;然后减少batchsize 16-->8,然后重新训练,第一轮刚加载,直接电脑死机,然后自动重启
然后重启电脑,开始训练,依然死机,然后电脑自动重启,无法训练!不知道什么原因,重启后电脑能正常运行,可以打开各种软件,就是无法训练模型,GPU没有损坏,可以正常推理预测图像。
并且,我试着训练YOLOv5s模型,将图像大小从640改成320也能训练,200轮次(证明显卡没坏),但是再训练其他模型就又出现电脑自动重启的问题。
显卡:TITAN RTX ,单卡。
之后我尝试了 将虚拟环境复制到新的虚拟环境中,使用代码: conda create -n fasterrcnn --clone yolo-torch2,在pycharm中将FasterRCNN模型的运行环境 改为 虚拟环境(fasterrcnn),重新训练,死机,然后电脑自动重启

有无其他同行遇到类似的情况,如何解决?
初步尝试的方法是以下这些,但无效
1、找到 /var/crash/ 里面寻找ubuntu系统 错误日志,删除
参考博文: https://blog.csdn.net/moutain9426/article/details/120619447
2、以为是显卡功率问题,修改过TITAN RTX显卡功率 从280w 改成了240w,使用代码 :sudo nvidia-smi -pl 240
参考博文: https://blog.csdn.net/weixin_42064949/article/details/108531506

  • 写回答

5条回答 默认 最新

  • 阳光宅男xxb 2023-06-09 08:48
    关注
    获得2.55元问题酬金

    从你提供的现象来看,训练成功后训练其他模型就出现了out of memory错误。这个错误是内存不足或者缓存不足的错误。尝试该问题的原因有可能是模型太大,内存占用过多,缓存设置不足导致的,建议减小模型大小和训练次数,调大缓存大小,训练完后可以检查下内存和缓存的占用大小,及时释放掉,再去训练其他模型

    评论

报告相同问题?

问题事件

  • 系统已结题 6月11日
  • 创建了问题 6月3日

悬赏问题

  • ¥15 esp8266控制共阳极wrgb灯板无法关闭所有led灯
  • ¥100 python读取速度问题
  • ¥15 stm32f407使用DMA问题
  • ¥15 您好 这个API接口该怎么弄 网站搭建好了 API也有 现在就不知道该怎么填写API 不知道怎么用
  • ¥88 用uniapp写一个多端的程序,用到高德地图,用高德的JSAPI吗?
  • ¥20 关于#c++#的问题:水果店管理系统
  • ¥30 dbLinq最新版linq sqlite
  • ¥20 对D盘进行分盘之前没有将visual studio2022卸载掉,现在该如何下载回来
  • ¥15 完成虚拟机环境配置,还有安装kettle
  • ¥15 有人会搭建生鲜配送自营+平台的管理系统吗