在双GPU上运行pytorch框架的程序报错

问题遇到的现象和发生背景

实验室服务器是双GPU，都是NVIDIA 1080Ti，在pytorch框架下运行程序。出现了下面的错误：
单独调用GPU0跑程序，没有问题。
单独调用GPU1跑程序，也没有问题。
同时调用两个GPU（GPU0的程序先开始运行）：调用GPU1的程序无法开始运行，直接报错。
同时调用两个GPU（GPU1的程序先开始运行）：在GPU0的程序正常运行，且一旦GPU0的程序开始运行，GPU1的程序就会立刻停止，并报错。

问题相关代码，请勿粘贴截图

运行结果及报错内容

Traceback (most recent call last):
  File "DSAN.py", line 184, in <module>
    train(epoch, model)
  File "DSAN.py", line 99, in train
    label_source_pred, loss_mmd = model(data_source, data_target, label_source)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "D:\zcm\20210530resnest实验2\resnest.py", line 55, in forward
    source = self.feature_layers(source)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "D:\zcm\20210530resnest实验2\resnet_new.py", line 306, in forward
    x = self.layer2(x)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\container.py", line 119, in forward
    input = module(input)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "D:\zcm\20210530resnest实验2\resnet_new.py", line 118, in forward
    out = self.conv2(out)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "D:\zcm\20210530resnest实验2\splat.py", line 65, in forward
    gap = sum(splited)
RuntimeError: CUDA out of memory. Tried to allocate 26.00 MiB (GPU 0; 11.00 GiB total capacity; 1.03 GiB already allocated; 7.46 GiB free; 1.12 GiB reserved in total by PyTorch)

我的解答思路和尝试过的方法

我想要达到的结果

想请问如何解决上述问题。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2021-11-24 17:54
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为您补发到账户。

因为有问必答VIP体验卡有效期仅有1天，您在需要使用的时候【私信】联系我，我会为您补发。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Pytorch使用tensorboard报错？ python tensorflow 深度学习
2021-04-06 21:00

回答 1 已采纳从提示错误信息看是版本冲突问题，requests包不符合依赖项要求，需要requests版本在2.21.0至3之间，尝试升级requests。
pytorch 模型在GPU上但训练时仍使用CPU python 有问必答神经网络
2021-05-13 18:05

回答 3 已采纳你要安装cuda和cudnn，参考一下https://zhuanlan.zhihu.com/p/106133822
为啥始终不能用gpu跑pytorch框架 pytorch 机器学习深度学习
2022-10-28 11:16

回答 1 已采纳显存占用多少？不要看显卡使用率，这个是平均使用率，如果模型小数据少，使用率低很正常
Pytorch框架常见报错--pytorch安装正常,无法调用GPU
2022-01-23 14:51

默执_的博客 Pytorch框架常见报错问题描述： pytorch安装正常，但却报错说无法调用GPU print(torch.cuda.is_available()) 结果为false print(torch.version) 结果为1.8.1+cu111 这时，发现使用nvidia-smi报错： NVIDIA-SMI has ...
macbook M1在anaconda中安装pytorch最后一步报错No module named torch python
2022-04-28 19:01

回答 1 已采纳 https://zhuanlan.zhihu.com/p/169919348https://www.freesion.com/article/78491017788/检查环境变量，看看电脑和这个解释器
Pytorch框架nn.RNN训练时反向传播报错 c++ python pytorch
2023-03-22 16:17

回答 5 已采纳基于最新版ChatGPT4的回答，望采纳!!!有其他问题也可以询问我哦、”(最新版更智能，功能更加强大) 这个问题是由于在循环中，计算图被保留了，但在每次循环时，其实我们需要重新构建计算图。因此，需要
关于pycharm引入pytorch报错 pycharm python pytorch 有问必答
2021-10-14 12:14

回答 3 已采纳应该是包过大，近1G,网络连接中断，下载的数据长度不够。尝试用下载工具或浏览器下载，到本地安装。参考： pytorch安装本地安装_LiDLMU的博客-CSDN博客_py
pytorch运行卡住，即不报错也不停止
2021-12-12 16:25

酷暑冷冰的博客程序运行到加载数据时卡住 for _, (support, query) in enumerate(eval_dataset) 把dataloader里的num_workers=0也没用，但是把eunmerate去掉有用了，但是运行到一半又停下了
conda 删除原来虚拟环境中的pytorch1.7.1版本（conda指令删除）后，再次进入虚拟环境查看不到pytorch，再次conda下载pytorch1.6，报错 pytorch 机器学习目标检测
2023-04-19 12:35

回答 1 已采纳关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：Pytorch(cuda9.0 cudnn7.05 python2.7 conda)离线安装除此之外, 这篇博客: anaconda 搭
请问用pip安装pytorch总是报错怎么办？ python pytorch
2022-05-14 22:44

回答 2 已采纳这个安装需要检查你的电脑里已安装的东西是否符合要求，比如你的电脑是否安装英伟达显卡，cuda的版本，python的版本。如果这些都符合要求还是会出现这样的情况，建议使用conda创建虚拟环境然后在按照
DGCNN.pytorch在S3DIS上运行错误，如何解决？ pytorch 图像处理神经网络
2022-05-20 10:41

回答 3 已采纳 def test(args, io): all_true_cls = [] all_pred_cls = [] all_true_seg = [] all_pred_s
Pytorch数据结构：GPU加速
2024-04-06 12:05

Yorelee.的博客 GPU加速
pytorch报错RuntimeError: v1.summary.FileWriter is not compatible with eager execution python pytorch 神经网络
2021-09-01 08:55

回答 1 已采纳这是torch还是tensorflow的信息太少了
人工智能之配置环境教程二：在Anaconda中创建虚拟环境安装GPU版本的Pytorch及torchvision并在VsCode中使用虚拟环境
2023-04-28 18:26

ZHW_AI课题组的博客孟莉苹，女，西安工程大学电子信息学院，2021级硕士研究生，张宏伟人工智能课题组。研究方向：机器视觉与人工智能。电子邮件：2425613875@qq.com。
PyTorch深度学习——框架简介
2024-04-02 16:54

Nosery的博客在静态图的计算中，构建前向的计算操作的同时也会构建一个反向传播的梯度计算，这样前向的计算图构建完毕伴随着反向计算图的构建完毕，有了损失函数之后，就可以从损失函数所在的张量的边开始逐渐沿着反向计算图获取...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月23日

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog