ValueError: Error initializing torch.distributed using tcp:// rendezvous: rank parameter missing

最近在调试MoCo v2代码，在分布式训练的代码运行时一直报错，报错如下，求大伙儿帮我看看是哪里出问题啦


Traceback (most recent call last):
  File "main_moco.py", line 530, in <module>
    main()
  File "main_moco.py", line 223, in main
    mp.spawn(main_worker, nprocs=ngpus_per_node, args=(ngpus_per_node, args))
  File "/root/miniconda3/envs/xzb/lib/python3.6/site-packages/torch/multiprocessing/spawn.py", line 171, in spawn
    while not spawn_context.join():
  File "/root/miniconda3/envs/xzb/lib/python3.6/site-packages/torch/multiprocessing/spawn.py", line 118, in join
    raise Exception(msg)
Exception:

-- Process 3 terminated with the following error:
Traceback (most recent call last):
  File "/root/miniconda3/envs/xzb/lib/python3.6/site-packages/torch/multiprocessing/spawn.py", line 19, in _wrap
    fn(i, *args)
  File "/root/fengyong/xzb/main_moco.py", line 254, in main_worker
    rank=args.rank
  File "/root/miniconda3/envs/xzb/lib/python3.6/site-packages/torch/distributed/distributed_c10d.py", line 400, in init_process_group
    store, rank, world_size = next(rendezvous(url))
  File "/root/miniconda3/envs/xzb/lib/python3.6/site-packages/torch/distributed/rendezvous.py", line 88, in _tcp_rendezvous_handler
    raise _error("rank parameter missing")
ValueError: Error initializing torch.distributed using tcp:// rendezvous: rank parameter missing

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-04-04 03:04
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
请看👉 ：RuntimeError: No such operator torchvision::nms问题解决

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决
无用 2
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

ValueError: list.remove(x): x not in list报错 python
2022-02-27 17:28

回答 2 已采纳因为你没有准确的写什么时候退出循环,然后它就一直在那删,当列表里没有这个元素的时候你还去删,它就会报错
pillow库，paste()，ValueError: unknown color specifier: 'block.png' python
2021-07-29 01:33

回答 2 已采纳解决啦。生成图像的函数 block = Image.new("RGBA", (413, 626),(255,0,0,255)) block.save('block.png',"PNG")
valueerror: input contains nan, infinity python 有问必答
2021-06-02 17:12

回答 3 已采纳你用np.isnan(y_train).all()检查一下，看是否有空值，再作处理。
ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable RANK
2023-11-01 19:55

初梦语雪的博客【代码】ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable RANK。
PYTHON 运行到一半出现ValueError: math domain error python 有问必答
2022-04-03 21:41

回答 2 已采纳 math.log()计算的值不能是 0 或负数你输出下出错时的new和old, 看看值是否正确
Python 链接 mogodb Atlas 报错 ValueError: error parsing asn1 value？ mongodb python 数据库有问必答
2021-11-15 18:00

回答 1 已采纳在pymongo.MongoClient函数里加个参数ssl_cert_reqs=ssl.CERT_NONE，试试。参考：https://stackoverflow.com/questions/698
np.load报错 ValueError: cannot reshape array pycharm python 有问必答深度学习
2021-12-14 10:01

回答 1 已采纳你这里提示错误是因为数组的长度为19429344 分割后的五维数组为(53018,1,17,25,25) 原始数组不能达到这个分割后的数组长度,所以不能分割.你需要检查x_1_25_final_arr
解决ValueError: Error initializing torch.distributed using env:// rendezvous:: environment variable 报错
2023-02-17 11:32

软软没吃饱的博客解决ValueError: Error initializing torch.distributed using env:// rendezvous:: environment variable 报错
ValueError: invalid color argument python
2022-05-07 16:20

回答 1 已采纳 color='while'是个鬼呀不是white吗
ValueError: too many values to unpack (expected 2) python 深度学习
2022-09-09 09:46

回答 4 已采纳 eat_pool, feat_fc = net(input, input, test_mode[1])这段话的net函数的返回值给多了，看下net的return几个变量
安装scrapy后，pip list显示有scrapy，但 cmd里输入scrapy出现ValueError:builtins.type size changed,may python
2022-07-05 22:26

回答 3 已采纳解决方法先测试下是否安装了该模块 python3 -m pip install scrapy # 安装 python3 -m scrapy version # 测试如有问题及时沟通
ValueError: Error initializing torch.distributed using tcp:// rendezvous: port number missing
2021-04-07 17:01

catOneTwo的博客用 pytorch 训练 ABCNet 网络【GitHub】， OMP_NUM_THREADS=1 ...--config-file configs/BAText/$confpath/attn_R_50.yaml \ --num-gpus 4 \ MODEL.WEIGHTS text_pretraining/...ValueError: Error initializing torch.
python中出现错误 ValueError: Series.replace cannot use dict-value and non-None to_replace 如何解决？ python 人工智能有问必答机器学习
2021-11-10 11:12

回答 1 已采纳报错很清楚了，告诉你不能把空替换成数据你可以把任何匹配到的字符替换成空，但是不能倒过来没法把空替换成数据
解决pytorch多进程ValueError: Error initializing torch.distributed using env:// rendezvou...报错
2021-07-13 14:33

呆萌的代Ma的博客完整报错为：ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MASTER_ADDR expected, but not set 解决方法1：在代码中使用： import os os.environ['MASTER_...
【opengait】ValueError: Error initializing torch.distributed using env:// rendezvous: environment vari
2023-11-29 19:34

weixin_46135327的博客 ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable RANK expected, but not set
【踩坑日记10】ValueError: Error initializing torch.distributed using env:// rendezvous: environment variab
2024-03-24 16:20

一只_程序媛的博客【代码】【踩坑日记10】ValueError: Error initializing torch.distributed using env:// rendezvous: environment variab。
报错：ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MA
2023-08-31 15:47

阿里里001的博客这意味着主节点位于本地计算机上，即当前运行代码的计算机。通常，这个地址是主节点的 IP 地址或主机名。指定正确的主节点地址对于其他计算节点能够连接到主节点至关重要。，这是一个数字，用于表示主节点侦听传入...
【分布式多卡训练问题】：error: unrecognized arguments:Error initializing torch.distributed using env:// rendezvo
2024-08-08 15:32

funqiqi的博客问题描述在分布式训练时可能会遇到以下报错 error: unrecognized arguments: --local-rank=2 ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable RANK 原因分析： ...
[swin-trans]分布式训练的debug：ValueError: Error initializing torch.distributed using env:// rendezvous: en
2022-03-24 10:30

captain飞虎大队的博客仅作为记录，大佬请跳过。在用torch.distributed.init_process_group...文章目录1、ValueError: Error initializing torch.distributed using env:// rendezvous: environment variable MASTER_ADDR expected, but n
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月3日

悬赏问题

¥15 有偿求苍穹外卖环境配置
¥15 代码在keil5里变成了这样怎么办啊，文件图像也变了，
¥20 Ue4.26打包win64bit报错，如何解决？(语言-c++)
¥15 clousx6整点报时指令怎么写
¥30 远程帮我安装软件及库文件
¥15 关于#自动化#的问题：如何通过电脑控制多相机同步拍照或摄影（相机或者摄影模组数量大于60），并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
¥20 深信服vpn-2050这台设备如何配置才能成功联网？
¥15 Arduino的wifi连接，如何关闭低功耗模式？
¥15 Android studio 无法定位adb是什么问题？
¥15 C#连接不上服务器，

ValueError: Error initializing torch.distributed using tcp:// rendezvous: rank parameter missing

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新