关于pytorch使用多张显卡的问题

问题描述：同一段代码，使用单显卡时没有问题，使用多张显卡时出现问题：

Traceback (most recent call last):
  File "trainer.py", line 370, in <module>
    trainer.train()
  File "trainer.py", line 263, in train
    self.x_tilde = self.G(self.z)
  File "G:\anaconda\lib\site-packages\torch\nn\modules\module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "G:\anaconda\lib\site-packages\torch\nn\parallel\data_parallel.py", line 152, in forward
    outputs = self.parallel_apply(replicas, inputs, kwargs)
  File "G:\anaconda\lib\site-packages\torch\nn\parallel\data_parallel.py", line 162, in parallel_apply
    return parallel_apply(replicas, inputs, kwargs, self.device_ids[:len(replicas)])
  File "G:\anaconda\lib\site-packages\torch\nn\parallel\parallel_apply.py", line 85, in parallel_apply
    output.reraise()
  File "G:\anaconda\lib\site-packages\torch\_utils.py", line 394, in reraise
    raise self.exc_type(msg)
RuntimeError: Caught RuntimeError in replica 1 on device 1.
Original Traceback (most recent call last):
  File "G:\anaconda\lib\site-packages\torch\nn\parallel\parallel_apply.py", line 60, in _worker
    output = module(*input, **kwargs)
  File "G:\anaconda\lib\site-packages\torch\nn\modules\module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "E:\Work_place\pggan-pytorch-master的副本\network.py", line 181, in forward
    x = self.model(x.view(x.size(0), -1, 1, 1))
  File "G:\anaconda\lib\site-packages\torch\nn\modules\module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "G:\anaconda\lib\site-packages\torch\nn\modules\container.py", line 100, in forward
    input = module(input)
  File "G:\anaconda\lib\site-packages\torch\nn\modules\module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "G:\anaconda\lib\site-packages\torch\nn\modules\container.py", line 100, in forward
    input = module(input)
  File "G:\anaconda\lib\site-packages\torch\nn\modules\module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "E:\Work_place\pggan-pytorch-master的副本\custom_layers.py", line 113, in forward
    x = self.conv(x.mul(self.scale))
  File "G:\anaconda\lib\site-packages\torch\nn\modules\module.py", line 532, in __call__
    result = self.forward(*input, **kwargs)
  File "G:\anaconda\lib\site-packages\torch\nn\modules\conv.py", line 345, in forward
    return self.conv2d_forward(input, self.weight)
  File "G:\anaconda\lib\site-packages\torch\nn\modules\conv.py", line 342, in conv2d_forward
    self.padding, self.dilation, self.groups)
RuntimeError: cuDNN error: CUDNN_STATUS_BAD_PARAM

双显卡的型号为：
0号显卡GTX1660，
1号显卡GTX1060
两张显卡都是6G版本。
不知道这是哪里出问题了，求各路大神指点。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Antony4theDay 2020-10-12 19:12
关注
同问
Traceback (most recent call last):
File "main.py", line 292, in
main()
File "main.py", line 91, in main
train_op(net, args)
File "main.py", line 157, in train_op
loss = net.deterministic_forward(data)
File "/mnt/lustre/dengandong/self-disentangle/model/network.py", line 63, in deterministic_forward
self.z_c, self.gap, self.reconstructed_gap = self.dCE(self.true) # ae
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/modules/module.py", line 722, in call_impl
result = self.forward(*input, **kwargs)
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/parallel/data_parallel.py", line 155, in forward
outputs = self.parallel_apply(replicas, inputs, kwargs)
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/parallel/data_parallel.py", line 165, in parallel_apply
return parallel_apply(replicas, inputs, kwargs, self.device_ids[:len(replicas)])
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/parallel/parallel_apply.py", line 85, in parallel_apply
output.reraise()
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/_utils.py", line 395, in reraise
raise self.exc_type(msg)
RuntimeError: Caught RuntimeError in replica 0 on device 0.
Original Traceback (most recent call last):
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/parallel/parallel_apply.py", line 60, in _worker
output = module(*input, **kwargs)
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/modules/module.py", line 722, in _call_impl
result = self.forward(*input, **kwargs)
File "/mnt/lustre/dengandong/self-disentangle/model/autoencoder/ae_3dcnn.py", line 64, in forward
content_code = self.encoder(reduce_frames)
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/modules/module.py", line 722, in _call_impl
result = self.forward(*input, **kwargs)
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/modules/container.py", line 117, in forward
input = module(input)
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/modules/module.py", line 722, in _call_impl
result = self.forward(*input, **kwargs)
File "/mnt/lustre/dengandong/self-disentangle/model/_init__.py", line 93, in forward
x = conv(x)
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/modules/module.py", line 722, in call_impl
result = self.forward(*input, **kwargs)
File "/mnt/lustre/dengandong/self-disentangle/model/_init__.py", line 30, in forward
x = self.conv(x)
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/modules/module.py", line 722, in _call_impl
result = self.forward(*input, **kwargs)
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/modules/conv.py", line 419, in forward
return self._conv_forward(input, self.weight)
File "/mnt/lustre/dengandong/anaconda3/envs/video_torch/lib/python3.6/site-packages/torch/nn/modules/conv.py", line 416, in _conv_forward
self.padding, self.dilation, self.groups)
RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于pytorch安装或pip更新的问题 pycharm python pytorch 有问必答
2022-04-11 14:57

回答 3 已采纳您好，可能是你pycharm中用的pio和您更新的pip不是一个pip,具体的可以私聊。
关于pytorch无法识别cuda的问题 pytorch 深度学习
2022-01-28 09:48

回答 1 已采纳说几个思路吧：1.这是个人gpu还是公用，公用的话利用占显存的方式你不一定能读到这块gpu2.看看你的pytorch版本和cuda版本对应了嘛，不对应的话是用不了的3.重装cuda的时候，cudnn有
关于 pytorch中Tensor数据类型的使用问题 python 人工智能机器学习深度学习神经网络
2020-01-12 05:22

回答 1 已采纳 condi_inputs这个Tensor包含不止一个值，不能当作 bool值用于 if 语句，试试这样改动： ``` if condi_inputs is not None:
pytorch使用多显卡训练
2021-12-17 01:30

ImangoCloud的博客多显卡参考链接链接1 链接2 链接3 第一步：设置多卡训练正确如果服务器的0号卡被别人占用，就得在刚开始加上这几行代码，手动更改0号显卡是2,1号卡是3。实际上，在通过各种提交方式提交程序作业至服务器，被分配好...
Windows版本，AMD显卡能搞Pytorch吗？ pytorch 深度学习神经网络
2022-06-08 22:43

回答 1 已采纳 ROCm路子官网只支持linux，不过我也没用过，但是听说bug和问题很多，另外就是微软的pytorch-DirectML，你可以试试看下这个能不能走得通，走不通就没办法了,深度学习还得是cuda。
关于pytorch网站上官方实现fcn网络的问题 pytorch 深度学习
2022-04-11 11:22

回答 1 已采纳低版本可手动安装，是否兼容可自行尝试 path '/data/VOCdevkit\VOC2012' does not exist. 报错是文件位置不对，你已经找到在哪里改了，可将--data-path
pytorch训练时怎么提高显卡的利用率？ pytorch 深度学习自然语言处理
2022-03-08 10:24

回答 2 已采纳 work number设置到cpu最大核心数，batch size 搞大点，你的显存才用了2G，还有那么多呢，不过显卡利用率低很正常，又不是挖矿，显卡很多时候要等硬盘或者内存读取信息呢。你把这里换成c
【Pytorch】pytorch使用多张GPU进行训练以及测试调用模型
2022-05-07 12:53

只搬烫手的砖的博客使用多张GPU进行训练的代码 os.environ["CUDA_VISIBLE_DEVICES"] = "0,1,2,3" device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") print(device) model = getModel(args) if torch.cuda....
关于装pytorch的问题！ pytorch
2022-10-29 18:06

回答 1 已采纳 csdn搜anaconda安装，还有pytorch安装，很详细的，每一步截图都用。配环境很折磨，折磨次数多了就好了
关于pytorch的一个小问题。 python 机器学习深度学习
2022-08-02 09:19

回答 3 已采纳你参数名称写错了，有用记得采纳 camp=plt.cm.gray 改成： cmap =plt.cm.gray
pytorch的callable问题 python pytorch
2022-10-14 10:36

回答 2 已采纳 DataLoader是一个类吗。点击去看看确认下
Pytorch多张显卡训练的模型在测试的时候使用单张显卡加载失败
2023-12-21 18:11

DarkKnight_2001的博客将模型重新包装为DataParallel模型，则加载成功。
pytorch中使用Dataset时，返回字典会导致内存泄漏问题 pytorch
2023-03-04 23:32

回答 1 已采纳 “Devil组”引证GPT后的撰写：在PyTorch中使用Dataset时，如果返回的是字典，可能会导致内存泄漏问题，因为每次迭代时，字典都会保留在内存中，如果数据集很大，这可能会导致内存不足。为
pytorch使用过程中指定显卡训练
2022-09-18 16:31

zhingzt的博客目录 1 指定单块显卡进行训练 1.1 默认的0号显卡 1.2 使用其他显卡，例如1号或其他
Windows系统安装PyTorch框架支持AMD Radeon显卡/Intel显卡
2024-03-25 15:23

AI码东道主的博客 PyTorch对NVIDIA显卡的支持最好，但是通过额外配置，也可以支持其他常见显卡，例如通过安装DirectML即可实现使用AMD和Intel显卡，但是性能上可能存在一定的区别，需要根据需要和表现进行灵活选择。
没有解决我的问题, 去提问

悬赏问题

¥15 R语言Rstudio突然无法启动
¥15 关于#matlab#的问题：提取2个图像的变量作为另外一个图像像元的移动量，计算新的位置创建新的图像并提取第二个图像的变量到新的图像
¥15 改算法，照着压缩包里边，参考其他代码封装的格式写到main函数里
¥15 用windows做服务的同志有吗
¥60 求一个简单的网页(标签-安全|关键词-上传)
¥35 lstm时间序列共享单车预测，loss值优化，参数优化算法
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值

关于pytorch使用多张显卡的问题

3条回答 默认 最新

悬赏问题

3条回答默认最新