陈嘿萌 2024-07-21 00:22 采纳率: 100%
浏览 62
已结题

深度学习运行代码直接中断

深度学习运行代码中断,不显示任何提示。如能1.找到原因2.并解决,转账200元以示感激。

问题描述

运行深度学习代码,然后直接中断,就是停止不运行,显卡也停下来,没有任何报错提示。不是在固定的Epoch发生的,像是随机。时而发生,时而运行一段时间再发生。

  • 硬件:4090(24G,电竞判客)+i9-14900K+DDR5
  • 系统:Ubuntu22.04.3;
  • 深度学习环境:Pytorch112,cuda12.1,英伟达驱动535.183.01;

代码:计算机视觉相关的代码,能够在其它服务器上运行不是代码的问题。
运行方式:nohup后台运行。


问题补充

偶尔出现的问题:
服务器的所有外接设备失效,比如网线、鼠标键盘插进去都没有什么反应,需要重启。


已排查的错误:
1.显卡、内存等进行压力测试,并没有报任何错误;
2.主机盖打开,增加散热能力;
3.重装系统n次:重装之后一般能解决,但是过一段时间又出现;
4.限制cpu功率,没办法解决;
5.num_works设为0,仍然出现该问题;
6.pin_memory关闭,还是存在该问题;
7.环境不兼容?cuda改成11.8还是有问题,Pytorch环境倒是没有尝试用其它的,感觉不是这个问题吧;
8.batch_size调小,显存只占用17G左右,目前还在运行中暂时没有出现问题,不过不一定一直不出现-> 还是会中断。
9.不使用nohup后台运行,仍然运行一会后会中断。

  • 写回答

32条回答 默认 最新

  • 急速光粒 2024-07-21 07:57
    关注

    这种问题没有错误提示的话,还是需要远程看一下分析原因

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(31条)

报告相同问题?

问题事件

  • 系统已结题 8月5日
  • 已采纳回答 7月28日
  • 修改了问题 7月21日
  • 修改了问题 7月21日
  • 展开全部

悬赏问题

  • ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
  • ¥15 安装quartus II18.1时弹出此error,怎么解决?
  • ¥15 keil官网下载psn序列号在哪
  • ¥15 想用adb命令做一个通话软件,播放录音
  • ¥30 Pytorch深度学习服务器跑不通问题解决?
  • ¥15 部分客户订单定位有误的问题
  • ¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
  • ¥15 Bug traq 数据包 大概什么价
  • ¥15 在anaconda上pytorch和paddle paddle下载报错
  • ¥25 自动填写QQ腾讯文档收集表