pytorch部署到多GPU的问题

import os
import torch.distributed as dist
import torch.multiprocessing as mp
from torch.nn import Linear
import torch
from torch.nn.parallel import DistributedDataParallel
from torch.utils.data.distributed import DistributedSampler
from torch_geometric.loader import DataLoader
from torch_geometric.nn import GCNConv, SAGEConv, GATConv, HeteroConv, GlobalAttention
from htg_data import HTG_data
import torch.nn.functional as F

class HeteroGNN(torch.nn.Module):
    def __init__(self, hidden_channels, out_channels, num_layers=2, dropout=0.5):
        super().__init__()
        self.dropout = dropout
        self.convs = torch.nn.ModuleList()
        for _ in range(num_layers):
            conv = HeteroConv({
                ('token', 'next_token', 'token'): GCNConv(-1, hidden_channels),
                ('token', 'token_sink', 'sink'): SAGEConv((-1, -1), hidden_channels),
                ('token', 'belongs_to', 'property'): GATConv((-1, -1), hidden_channels),
                ('property', 'property_sink', 'sink'): SAGEConv((-1, -1), hidden_channels),
                ('property', 'next_property', 'property'): GATConv((-1, -1), hidden_channels),
            }, aggr='sum')
            self.convs.append(conv)
        self.pooling_gate_nn = Linear(hidden_channels, 1)
        self.pooling = GlobalAttention(self.pooling_gate_nn)
        self.lin = Linear(hidden_channels, out_channels)

    def reset_parameters(self):
        for conv in self.convs:
            conv.reset_parameters()
        self.pooling.reset_parameters()
        self.lin.reset_parameters()

    def forward(self, x_dict, edge_index_dict, batch):
        for conv in self.convs:
            x_dict = conv(x_dict, edge_index_dict)
            x_dict = {key: x.relu() for key, x in x_dict.items()}
        x = torch.cat((x_dict['sink'],x_dict['property'],x_dict['token']), 0)
        x = self.pooling(x, batch)
        x = F.relu(x)
        x = F.dropout(x, p=self.dropout, training=self.training)
        x = self.lin(x)
        return x

def run(rank, world_size: int, root: str):
    os.environ['MASTER_ADDR'] = 'localhost'
    os.environ['MASTER_PORT'] = '12355'
    dist.init_process_group('nccl', rank=rank, world_size=world_size)

    dataset = HTG_data(root = root)

    print(dataset[0])

    train_sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank)
    train_loader = DataLoader(dataset, batch_size=128, sampler=train_sampler)


    torch.manual_seed(12345)
    model = HeteroGNN(hidden_channels=64, out_channels=2, num_layers=2).to(rank)
    model = DistributedDataParallel(model, device_ids=[rank])

    print(model)

    optimizer = torch.optim.Adam(model.parameters(), lr=0.0005)
    criterion = torch.nn.MultiLabelSoftMarginLoss()

    for epoch in range(1, 51):
        model.train()

        total_loss = 0
        for data in train_loader:
            data = data.to(rank)
            optimizer.zero_grad()
            logits = model(data.x_dict, data.edge_index_dict, data.batch)
            loss = criterion(logits, data.y.to(torch.float))
            loss.backward()
            optimizer.step()
            total_loss += float(loss) * logits.size(0)
        loss = total_loss / len(train_loader.dataset)

        dist.barrier()

        print(f'Epoch: {epoch:03d}, Loss: {loss:.4f}, ')

    dist.destroy_process_group()

if __name__ == '__main__':

    root = '/home/ylzqn/HTG_Data/HTG_CAG'
    world_size = torch.cuda.device_count()
    print('Let\'s use', world_size, 'GPUs!')
    args = (world_size, root)
    mp.spawn(run, args=args, nprocs=world_size, join=True)

**Traceback (most recent call last):
File "/home/ylzqn/Jupyter Notebook/pkgcode2vec/htg_model.py", line 127, in
mp.spawn(run, args=args, nprocs=world_size, join=True)
File "/home/ylzqn/.conda/envs/lynch_pytorch/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 230, in spawn
return start_processes(fn, args, nprocs, join, daemon, start_method='spawn')
File "/home/ylzqn/.conda/envs/lynch_pytorch/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 188, in start_processes
while not context.join():
File "/home/ylzqn/.conda/envs/lynch_pytorch/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 150, in join
raise ProcessRaisedException(msg, error_index, failed_process.pid)
torch.multiprocessing.spawn.ProcessRaisedException:

-- Process 0 terminated with the following error:
Traceback (most recent call last):
File "/home/ylzqn/.conda/envs/lynch_pytorch/lib/python3.7/site-packages/torch/multiprocessing/spawn.py", line 59, in _wrap
fn(i, args)
File "/home/ylzqn/Jupyter Notebook/pkgcode2vec/htg_model.py", line 71, in run
model = DistributedDataParallel(model, device_ids=[rank])
File "/home/ylzqn/.conda/envs/lynch_pytorch/lib/python3.7/site-packages/torch/nn/parallel/distributed.py", line 435, in init
'Modules with uninitialized parameters can't be used with DistributedDataParallel. '
RuntimeError: Modules with uninitialized parameters can't be used with DistributedDataParallel. Run a dummy forward pass to correctly initialize the modules*

我想用DistributedDataParallel将模型部署到4个GPU，出现了以上的问题. 希望哪位能指导一下.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
生产队的小刘 Python领域新星创作者 2022-10-03 11:16
关注
推荐参考文章：https://blog.csdn.net/qq_40564301/article/details/123694176
（望采纳哦~）

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pytorch不调用gpu运算 pytorch 深度学习
2022-11-11 16:14

回答 2 已采纳给你找了一篇非常好的博客，你可以看看是否有帮助，链接：pytorch无法调用gpu的一些解决方法
pytorch GPU 找不到文件 python pytorch
2023-03-30 10:15

回答 2 已采纳已解决
pytorch 模型在GPU上但训练时仍使用CPU python 有问必答神经网络
2021-05-13 18:05

回答 3 已采纳你要安装cuda和cudnn，参考一下https://zhuanlan.zhihu.com/p/106133822
Pytorch实现多GPU深度学习训练
2022-12-08 16:58

小薛薛snow的博客随着人工智能的发展，大数据时代到来。面对大型的数据和模型训练时，我们不可避免的需要使用多GPU进行训练，我将简单介绍pytorch中如何使用多GPU进行并行训练。你将学习到在PyTorch中如何使用多GPU进行并行训练。
python使用多gpu问题 python pytorch 深度学习
2022-07-20 11:57

回答 3 已采纳 DDP神坑，基本无解换launch看看？ python -m torch.distributed.launch或者看下这个 distributed training no
实现pytorch时出现空参数问题 pytorch 机器学习深度学习
2022-10-24 15:49

回答 1 已采纳 int是什么鬼？改成__init__，不然你都没有初始化model，导致你的model就是空的
pycharm无法检测到pytorch pycharm python pytorch
2023-01-07 21:39

回答 2 已采纳你这个是在终端里面打开的吧，没有激活环境就会这样。正常右键运行或者Ctrl+shift+F10运行是可以运行的，你这个是在终端，前面才会有ps的字样，表示power shell。你可以输入cmd转到c
Ubuntu中docker部署gpu版pytorch
2022-05-04 21:35

AI小笔记的博客文章目录docker简介安装docker与NVIDIA-docker安装docke安装NVIDIA-docker安装显卡驱动拉取pytorch GPU版镜像文件运行pytoch容器总结 docker简介 Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及...
pytorch的callable问题 python pytorch
2022-10-14 10:36

回答 2 已采纳 DataLoader是一个类吗。点击去看看确认下
在pycharm安装cv2，pytorch遇到问题 pycharm pytorch 人工智能有问必答
2023-03-05 11:03

回答 5 已采纳将pip3 install opencv 换成 pip3 install opencv-python 试下看是否可正常安装
为啥始终不能用gpu跑pytorch框架 pytorch 机器学习深度学习
2022-10-28 11:16

回答 1 已采纳显存占用多少？不要看显卡使用率，这个是平均使用率，如果模型小数据少，使用率低很正常
PyTorch中的多GPU加速：提高神经网络训练效率的关键策略
2023-07-14 01:44

禅与计算机程序设计艺术的博客作者：禅与计算机程序设计艺术深度学习的发展和应用极大的促进了...比如，在工业界，自动驾驶、目标检测等问题都将会受到更加深刻的关注；而在学术界，深度学习已经成为研究热点，例如图像分类、文本生成、机器翻译
用pytorch做图像的多分类问题报错，可有偿 pytorch 分类深度学习
2022-12-28 11:11

回答 5 已采纳你这报错在这里面，跟你贴的代码一点关系没有，都还没执行到这里呢。看报错信息，应该是你的输出口设置不对，原来两分类是两个，你多分类的话全连接层的输出也要改的。
pytorch使用GPU训练模型
2022-09-19 16:07

hj_caas的博客 pytorch使用GPU训练深度学习模型
GPU版本PyTorch详细安装教程
2022-05-08 12:52

吉果果、的博客注意：30系列的的显卡暂时不支持cuda11以下版本！！！一、安装显卡驱动第一步：右击右下角开始，在设备管理器中查看计算机...第三步：安装完成后,打开CMD终端（快捷键：Win+R），命令行输入:nvidia-smi查看GPU状态
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月3日

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥15 stable diffusion
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条

pytorch部署到多GPU的问题

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新