pytorch训练一段时间（1-100个epoch之间）后报错？

pytorch训练一段时间（1-100个epoch之间）后报错

4090+11.8, torch2.1

训练一段时间后出现各种不同的错误，包括但不限于

RuntimeError: DataLoader worker (pid(s) 9773) exited unexpectedly

RuntimeError: CUDA error: CUBLAS_STATUS_NOT_SUPPORTED when calling cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)

RuntimeError: d.is_cuda() INTERNAL ASSERT FAILED at "../c10/cuda/impl/CUDAGuardImpl.h":31, please report a bug to PyTorch.

重装了不同的系统都会出现该问题，直接使用别人docker里面的环境也会出现问题，只有在Windows下的WSL环境不出现问题，在该环境下，两张卡一起训练依旧有一张会过一段时间卡住。不一定是哪一张谁能帮助我一下。谢谢各位义父！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-05-29 21:38
关注
引自免费微信小程序：皆我百晓生

首先，你需要了解这些错误的原因，然后针对具体的问题进行排查和解决。下面我会分步骤为你提供可能的解决方案。

第一步：检查GPU兼容性

确保你的PyTorch版本、CUDA版本和cuDNN版本是兼容的。例如，如果你使用的是PyTorch 2.1，那么你需要一个与之兼容的CUDA版本，比如CUDA 10.1。你可以在这里查看官方兼容性表。

第二步：更新依赖库

确保所有相关的库都是最新版的，特别是PyTorch、CUDA、cuDNN和torchvision。你可以使用pip安装最新版的库，或者从源码编译安装。这里是一个例子，如何使用pip安装：

pip install --upgrade torch torchvision

第三步：检查数据加载器

RuntimeError: DataLoader worker (pid(s) 9773) exited unexpectedly这个错误通常是因为数据加载器中的某个工作线程崩溃了。这可能是由于数据预处理过程中出现了错误，或者是内存不足。尝试调整num_workers参数，减少数据加载器的工作线程数量，看是否可以解决问题。

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=your_batch_size, shuffle=True, num_workers=2)

第四步：检查显卡资源

RuntimeError: CUDA error: CUBLAS_STATUS_NOT_SUPPORTED表示使用的CUBLAS函数不被当前设备支持。这可能是因为你尝试在一个只支持单精度运算的GPU上执行双精度运算。确保你的模型和计算都是在适当的精度（float32或float64）上运行。

第五步：内存管理

在多卡训练时，确保你的模型、数据和优化器都在同一张GPU上分配内存。使用.to(device)将它们移动到正确的设备上。另外，检查是否有显存泄漏，这可能导致内存耗尽。在每次迭代结束后，释放不必要的临时变量。

device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model.to(device) optimizer = torch.optim.Adam(model.parameters(), lr=0.001).to(device) for epoch in range(num_epochs): for inputs, labels in train_loader: inputs, labels = inputs.to(device), labels.to(device) optimizer.zero_grad() outputs = model(inputs) loss = F.cross_entropy(outputs, labels) loss.backward() optimizer.step() # 清理缓存 del inputs, labels, outputs, loss

第六步：日志和调试

开启PyTorch的调试模式，这可能会提供更多的错误信息，帮助你定位问题：

import os os.environ["CUDA_LAUNCH_BLOCKING"] = "1"

第七步：检查代码

确保你的代码没有潜在的无限循环或其他逻辑错误。如果有多个进程或线程，确保它们之间的同步正确无误。

第八步：WSL环境

WSL（Windows Subsystem for Linux）可能会有性能上的限制。尽管它可以在Windows上运行Linux应用程序，但某些特性可能不如原生Linux环境稳定。建议你在纯Linux环境中测试，看看是否还会遇到同样的问题。

第九步：硬件问题

最后，考虑检查硬件连接，确保所有的GPU都正常工作，没有物理损坏或者其他硬件故障。

如果以上步骤都不能解决问题，我建议你创建一个最小可复现问题的代码示例，并附带详细的环境描述，这样其他人可以在GitHub上创建一个issue，或者在Stack Overflow等社区寻求更专业的帮助。同时，也可以尝试在PyTorch的官方论坛上发帖，那里有很多活跃的开发者和用户，他们可能能帮你找到更具体的解决方案。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pytorch 的dataloader使用一个epoch后需要重新“装载”么？ python pytorch 机器学习
2022-10-24 14:12

回答 2 已采纳你的数据很多吗？一般情况下是不需要的，DataLoader本身是个可迭代的东西，如果设计得当的话大部分情况是不需要多次加载的。
pytorch训练完一个epoch计算验证集精度时怎样释放显存深度学习神经网络计算机视觉
2023-02-18 15:36

回答 2 已采纳基于Monster 组和GPT的调写：使用torch.cuda.empty_cache()函数手动释放显存。如果想要在每个epoch的训练结束后释放训练集显存，可以在每个epoch结束时调用该函数。
深度学习训练模型的时候一个epoch的时间为什么会越来越长？ pytorch 深度学习目标检测
2021-09-16 21:35

回答 1 已采纳在训练的时候用visdom可视化每个iterator的loss值，把visdom换成tensorbord发现问题解决了，应该是用visdom记录的时候占用了电脑的进程。
使用pytorch-superpoint与pytorch-superglue项目实现训练自己的数据集
2024-01-07 00:15

万里鹏程转瞬至的博客官方发布的superpoint与superglue模型均基于coco数据训练，与业务中的实际数据或许存在差距，为此实现基于开源的pytorch-superpoint与pytorch-superglue项目实现训练自己的数据集。然而，在训练pytorch-superpoint有...
Pytorch使用tensorboard报错？ python tensorflow 深度学习
2021-04-06 21:00

回答 1 已采纳从提示错误信息看是版本冲突问题，requests包不符合依赖项要求，需要requests版本在2.21.0至3之间，尝试升级requests。
pytorch的一个报错该如何解决？ pytorch transformer 图像处理
2023-03-03 16:34

回答 2 已采纳小魔女参考了bing和GPT部分内容调写:如果你使用的是pytorch1.5.1版本，那么你应该安装apex包的1.0.1版本。安装不对的话，可能会出现报错，比如模型训练时出现RuntimeError
conda create -n py111 python=3.6报错 python
2022-03-21 18:23

回答 1 已采纳首先，你的3.10和3.7是在不同环境中的python，3.10是你其他路径下面的python，而3.7是anaconda环境下面的python。比较建议的是将其他环境的卸载点儿保留conda环境的p
【PyTorch】（三）----搭建卷积神经网络
2024-06-01 22:57

麦田里的稻草人w的博客本文主要介绍如何使用pytorch搭建卷积神经网络
请问用pip安装pytorch总是报错怎么办？ python pytorch
2022-05-14 22:44

回答 2 已采纳这个安装需要检查你的电脑里已安装的东西是否符合要求，比如你的电脑是否安装英伟达显卡，cuda的版本，python的版本。如果这些都符合要求还是会出现这样的情况，建议使用conda创建虚拟环境然后在按照
我利用torch搭建了一个神经网络但是需要神经网络的输出控制在0-1之间训练后发生了梯度消失 python 人工智能神经网络
2021-04-25 02:16

回答 1 已采纳 1. 把loss函数也放出来看看 2. 先把中间的sigmoid改成Relu（或者其他变种），最后一层使用sigmoid
使用pytorch训练网络训练时遇到类似存储吃满的报错现象QAQ python pytorch 计算机视觉
2021-12-19 12:55

回答 2 已采纳看下你的参数设置是什么样子的，比如多大的img_size和batch_size会出现这个问题，显存总共多少G，你训练的时候花了多少叫没吃满。还有一些时候是用opencv加载数据的话也会出现和pytor
新手小白的pytorch学习第五弹-----pytorch的工作流
2024-07-17 21:38

Lemon爱吃苹果的博客 pytorch新手小白学习，基本工作流程，模型训练和测试，绘制图像，可视化
深度学习基于pytorch的SSD代码，进行训练数据集时报错（array Is 1-dimensional, but 2 were indexed）深度学习目标检测计算机视觉
2022-04-10 16:18

回答 2 已采纳数组是一维的, 但是你用了二维的索引
yolov5-pytorch-Ultralytics教程，涵盖训练+预测+报错处理
2024-05-03 16:36

ntr亚丝娜（我永远喜欢千花书记）的博客本篇使用的yolo5模型大小为yolov5l由于需要识别一图片些细小的物体，我在Ultralytics的yolov5添加了一些注意力机制，但本次不会展开说，因为添加注意力前后对我们训练和预测的操作流程都没有任何影响。训练+预测至此...
PyTorch深度学习快速入门教程--学习笔记
2024-08-18 11:51

彪嘞个彪的博客 ① torchvision中有很多数据集，当我们写代码时指定相应的数据集指定一些参数，它就可以自行下载。② CIFAR-10数据集包含60000张32×32的彩色图片，一共10个类别，其中50000张训练图片，10000张测试图片。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月29日

悬赏问题

¥15 Matlab安装yalmip和cplex功能安装失败
¥15 加装宝马安卓中控改变开机画面
¥15 STK安装问题问问大家，这种情况应该怎么办
¥15 更换了一个新的win10系统，再下载VS时碰到的问题，是C++组件的？
¥15 关于罗技鼠标宏lua文件的问题
¥15 halcon ocr mlp 识别问题
¥15 已知曲线满足正余弦函数，根据其峰值，还原出整条曲线
¥20 无法创建新的堆栈防护界面
¥15 sessionStorage在vue中的用法
¥15 wordpress更换域名后用户图片头像不显示

pytorch训练一段时间（1-100个epoch之间）后报错？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新