ubuntu18.04运行模型，直接死机

离线的服务器ubuntu18.04，但是装了无线网卡，一般只用手机开热点下载一些缺失的包，不太想重新创虚拟环境、下载各种包，比较麻烦，所以就偷懒了，没有配置新的虚拟环境；
然后训练Yolov7目标检测网络，配置了一个pytorch2.0的虚拟环境（yolo-torch2），然后训练成功；
接着训练SSD，还是在yolo-torch2虚拟环境下训练，运行成功；
再然后在yolo-torch2虚拟环境内训练fasterRCNN，冻结训练50轮，解冻训练150轮，共计200轮，训练时出现out of memory；然后减少batchsize 16-->8，然后重新训练，第一轮刚加载，直接电脑死机，然后自动重启
然后重启电脑，开始训练，依然死机，然后电脑自动重启，无法训练！不知道什么原因，重启后电脑能正常运行，可以打开各种软件，就是无法训练模型，GPU没有损坏，可以正常推理预测图像。
并且，我试着训练YOLOv5s模型，将图像大小从640改成320也能训练，200轮次（证明显卡没坏），但是再训练其他模型就又出现电脑自动重启的问题。
显卡：TITAN RTX ,单卡。
之后我尝试了将虚拟环境复制到新的虚拟环境中，使用代码： conda create -n fasterrcnn --clone yolo-torch2，在pycharm中将FasterRCNN模型的运行环境 改为虚拟环境(fasterrcnn)，重新训练，死机，然后电脑自动重启，

有无其他同行遇到类似的情况，如何解决？
初步尝试的方法是以下这些，但无效
1、找到 /var/crash/ 里面寻找ubuntu系统错误日志，删除
参考博文： https://blog.csdn.net/moutain9426/article/details/120619447
2、以为是显卡功率问题，修改过TITAN RTX显卡功率从280w 改成了240w，使用代码：sudo nvidia-smi -pl 240
参考博文： https://blog.csdn.net/weixin_42064949/article/details/108531506

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阳光宅男xxb 2023-06-09 08:48
关注
获得2.55元问题酬金

从你提供的现象来看，训练成功后训练其他模型就出现了out of memory错误。这个错误是内存不足或者缓存不足的错误。尝试该问题的原因有可能是模型太大，内存占用过多，缓存设置不足导致的，建议减小模型大小和训练次数，调大缓存大小，训练完后可以检查下内存和缓存的占用大小，及时释放掉，再去训练其他模型

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【AI大模型】Ubuntu18.04安装deepseek-r1模型+服务器部署+内网访问
2025-02-05 11:36

JinSu_的博客我的电脑配置是，CPU：Inteli9-13900KF×32，内存：31.2 GiB，显卡：RTX 4080（16GiB），我选了 14b 的模型。ollama 安装后默认监听 127.0.0.1, 为了方便使用，要么修改监听地址，要么用 SSH 转发，这里我选择了修改...
Ubuntu18.04实现Tensorflow框架下的Fasterrcnn目标检测
2022-05-27 18:53

beautifulback的博客一般情况下，我都是创建虚拟环境进行训练测试，因为很方便，用完后可以直接删掉，并且出错了可以重来，不用害怕死机，下面是我之前写的一个文章有Anaconda3的安装，有需要可以看看 Ubuntu18.04+CUDA10.0+cudnn7.6.5...
如何选择该用Ubuntu还是centos呢？
2021-12-09 11:51

RayChiu_Labloy的博客 Centos和Ubuntu该如何选择，哪个更好用。笔者在自媒体平台收集了一些网友的观点，较为经典，分享给大家。至于应该选择哪个，希望看完本文章后，读者心中有数。
ubuntu系统人工智能框架安装指南及常见问题解决方案——numpy、sklearn、TensorFlow、opencv、caffe2、caffe及中间的相关插曲
2019-02-20 20:34

Zjhao666的博客 Table of Contents 1 申明 2 相关框架的安装 2.1 准备工作 2.2 numpy 2.3 sklearn ...2.7.1 现有的相关配置（因机而异） 2.7.2 需要的配置（基于现有配置和其相互关联） 2.7.3 安装NVIDIA GPU驱...
复现faster-rcnn（jwyang的pytorch版本）
2024-01-07 23:13

南风知我意95的博客复现的是github上比较火的wyang版本，本地环境Ubuntu20.04+python3.6+pytorch1.5.1+cuda10.1autodl上的环境是Ubuntu20.04+python3.6+pytorch1.10.0+cuda11.3，两者都成功。
从0开始的Linux跑项目生活
2025-05-14 23:41

远山绵的博客 ⇨ 服务器 2080Ti 环境 tensorflow: 1.14.0（指定）-> Cuda: 10.0（必须） Cuda Driver: 12.1 NVIDIA-Linux-x86_64–410.57 Ubuntu18.04 Installing 2080ti driver and cuda GPU服务器Ubuntu环境配置教程及各种踩坑...
在8550DK中使用DSP运行YOLOv8-seg
2024-12-27 10:17

weixin_38498942的博客 YOLOv8-seg是一种基于YOLOv3的语义分割模型，它结合了目标检测和语义分割的功能，旨在同时实现目标检测和像素级别的语义分割，以提供更全面的场景理解和分析能力。它使用YOLOv3的骨干网络作为特征提取器，并在其基础...
探秘RK3588的DVFS魔法：从原理到实战调优
2025-09-30 10:17

计算机学长的博客摘要：本文深入探讨了RK3588芯片的动态电压频率调节（DVFS）机制，分析了其在不同应用场景下的性能与功耗优化策略...最后展望了结合AI的智能负载预测算法等未来研究方向，为嵌入式系统开发者提供了实用的DVFS调优指南。
【ROS机器人入门】1.1 ROS概念及环境配置
2022-10-15 21:21

LenckCuak的博客免费且开源：开发者众多，功能包多系统要求系统：ubuntu 20.04 本人原本使用的是ubuntu22，但似乎新版本不稳定，在vm上经常宕机 ROS1 版本：ROS Noetic Noetic(2020发布)支持python 3 Noetic之前支持python 2 ...
服务器开发系列（二）——Jetson Xavier NX
2022-08-17 18:08

马•晓的博客不设置swap的话，如果使用内存量激增，那么可能会出现OOM-Killer的情况，导致应用宕机。如果设置了swap，此时可以通过设置/proc/sys/vm/swappiness这个swap参数，调整使用swap的概率，此值越小，使用swap的概率就越...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月3日

ubuntu18.04运行模型，直接死机

5条回答 默认 最新

问题事件

5条回答默认最新