训练报错如下
RuntimeError: Default process group has not been initialized, please make sure to call init_process_group.
网上的教程也看了,有人说SyncBN替换成BN就行了,但我又不知道是哪个文件中的BN
有人说“统一是/否分布式训练”就可以了,但是又没说到底怎么统一
训练报错如下
你使用的分布式训练,但是没有正确初始化分布式环境导致的,用SyncBN来替换BN,是因为SyncBN与DistributedDataParallel天生兼容,“统一是/否分布式训练”指的是,所有GPU和进程都使用相同的分布式模式来训练,torch.distributed.init_process_group(backend="nccl")试下