张伯亮 2021-11-23 17:12 采纳率: 0%
浏览 29
已结题

在双GPU上运行pytorch框架的程序报错

问题遇到的现象和发生背景

实验室服务器是双GPU,都是NVIDIA 1080Ti,在pytorch框架下运行程序。出现了下面的错误:
单独调用GPU0跑程序,没有问题。
单独调用GPU1跑程序,也没有问题。
同时调用两个GPU(GPU0的程序先开始运行):调用GPU1的程序无法开始运行,直接报错。
同时调用两个GPU(GPU1的程序先开始运行):在GPU0的程序正常运行,且一旦GPU0的程序开始运行,GPU1的程序就会立刻停止,并报错。

问题相关代码,请勿粘贴截图
运行结果及报错内容
Traceback (most recent call last):
  File "DSAN.py", line 184, in <module>
    train(epoch, model)
  File "DSAN.py", line 99, in train
    label_source_pred, loss_mmd = model(data_source, data_target, label_source)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "D:\zcm\20210530resnest实验2\resnest.py", line 55, in forward
    source = self.feature_layers(source)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "D:\zcm\20210530resnest实验2\resnet_new.py", line 306, in forward
    x = self.layer2(x)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\container.py", line 119, in forward
    input = module(input)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "D:\zcm\20210530resnest实验2\resnet_new.py", line 118, in forward
    out = self.conv2(out)
  File "D:\ProgramFiles\Anaconda3-py3.7.1\envs\zcm\lib\site-packages\torch\nn\modules\module.py", line 889, in _call_impl
    result = self.forward(*input, **kwargs)
  File "D:\zcm\20210530resnest实验2\splat.py", line 65, in forward
    gap = sum(splited)
RuntimeError: CUDA out of memory. Tried to allocate 26.00 MiB (GPU 0; 11.00 GiB total capacity; 1.03 GiB already allocated; 7.46 GiB free; 1.12 GiB reserved in total by PyTorch)
我的解答思路和尝试过的方法
我想要达到的结果

想请问如何解决上述问题。

  • 写回答

1条回答 默认 最新

  • 有问必答小助手 2021-11-24 17:54
    关注

    你好,我是有问必答小助手,非常抱歉,本次您提出的有问必答问题,技术专家团超时未为您做出解答


    本次提问扣除的有问必答次数,将会以问答VIP体验卡(1次有问必答机会、商城购买实体图书享受95折优惠)的形式为您补发到账户。


    因为有问必答VIP体验卡有效期仅有1天,您在需要使用的时候【私信】联系我,我会为您补发。

    评论

报告相同问题?

问题事件

  • 系统已结题 12月1日
  • 修改了问题 11月23日
  • 创建了问题 11月23日

悬赏问题

  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?
  • ¥15 c++头文件不能识别CDialog