AIG5_ 2023-06-26 14:35 采纳率: 100%
浏览 97
已结题

训练语言模型时出错RuntimeError

训练报错如下

img


RuntimeError: Default process group has not been initialized, please make sure to call init_process_group.
网上的教程也看了,有人说SyncBN替换成BN就行了,但我又不知道是哪个文件中的BN
有人说“统一是/否分布式训练”就可以了,但是又没说到底怎么统一

  • 写回答

5条回答 默认 最新

  • 技术宅program 2023-06-30 22:32
    关注

    你使用的分布式训练,但是没有正确初始化分布式环境导致的,用SyncBN来替换BN,是因为SyncBN与DistributedDataParallel天生兼容,“统一是/否分布式训练”指的是,所有GPU和进程都使用相同的分布式模式来训练,torch.distributed.init_process_group(backend="nccl")试下

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 7月11日
  • 已采纳回答 7月3日
  • 修改了问题 6月27日
  • 创建了问题 6月26日

悬赏问题

  • ¥15 mysql将查询的结果作为动态列名怎么实现
  • ¥50 python自动地图截图脚本
  • ¥15 悬赏一本书(内含Matlab代码)的书名、作者
  • ¥20 瑞萨RA4M1芯片刷写为arduino r4 minima
  • ¥15 前端vue跟后端java服务部署在线上阿里云服务器
  • ¥15 fastreport怎么判断当前页数
  • ¥15 Kylin-Desktop-V10-GFB-Release-JICAI_02- 2207-Build14-ARM64.iso有没有这个版本的系统啊
  • ¥15 能不能通过蓝牙将传感器数据传送到手机上
  • ¥20 100元python和数据科学实验项目
  • ¥15 根据时间在调用出列表