多GPU和单GPU状体字典不一样


    def _load_optimizer_state(self):
        main_checkpoint = find_resume_checkpoint() or self.resume_checkpoint
        opt_checkpoint = bf.join(
            bf.dirname(main_checkpoint), f"opt{self.resume_step:06}.pt"
        )
        if bf.exists(opt_checkpoint):
            logger.log(f"loading optimizer state from checkpoint: {opt_checkpoint}")
            state_dict = dist_util.load_state_dict(
                opt_checkpoint, map_location=dist_util.dev(),strict=False
            )
            self.opt.load_state_dict(state_dict)

以上这段代码是用于从检查点中获取优化器参数，我发现在多卡并行的情况下得到的state_dict的内容和单卡情况下的内容不一样，导致我在多卡情况下恢复训练会出现错误:KeyError: 'param_groups',这是为什么？如何解决？

我尝试了各位的方案，发现还是不行，在单GPU时state_dict内是['state','param_groups'],多GPU就变成了如下:

['t_embedder.mlp.0.weight', 't_embedder.mlp.0.bias', 't_embedder.mlp.2.weight', 't_embedder.mlp.2.bias', 'encoder.pos_embedding', 'encoder.to_patch_embedding.1.weight', 'encoder.to_patch_embedding.1.bias', 'encoder.to_patch_embedding.2.weight', 'encoder.to_patch_embedding.2.bias', 'encoder.to_patch_embedding.3.weight', 'encoder.to_patch_embedding.3.bias', 'encoder.transformer.norm.weight', 'encoder.transformer.norm.bias', 'encoder.transformer.layers.0.0.norm.weight', 'encoder.transformer.layers.0.0.norm.bias', 'encoder.transformer.layers.0.0.to_qkv.weight', 'encoder.transformer.layers.0.0.to_out.0.weight', 'encoder.transformer.layers.0.0.to_out.0.bias', 'encoder.transformer.layers.0.1.net.0.weight', 'encoder.transformer.layers.0.1.net.0.bias', 'encoder.transformer.layers.0.1.net.1.weight', 'encoder.transformer.layers.0.1.net.1.bias', 'encoder.transformer.layers.0.1.net.4.weight', 'encoder.transformer.layers.0.1.net.4.bias', 'encoder.transformer.layers.1.0.norm.weight', 'encoder.transformer.layers.1.0.norm.bias', 'encoder.transformer.layers.1.0.to_qkv.weight', 'encoder.transformer.layers.1.0.to_out.0.weight', 'encoder.transformer.layers.1.0.to_out.0.bias', 'encoder.transformer.layers.1.1.net.0.weight', 'encoder.transformer.layers.1.1.net.0.bias', 'encoder.transformer.layers.1.1.net.1.weight', 'encoder.transformer.layers.1.1.net.1.bias', 'encoder.transformer.layers.1.1.net.4.weight', 'encoder.transformer.layers.1.1.net.4.bias', 'encoder.transformer.layers.2.0.norm.weight', 'encoder.transformer.layers.2.0.norm.bias', 'encoder.transformer.layers.2.0.to_qkv.weight', 'encoder.transformer.layers.2.0.to_out.0.weight', 'encoder.transformer.layers.2.0.to_out.0.bias', 'encoder.transformer.layers.2.1.net.0.weight', 'encoder.transformer.layers.2.1.net.0.bias', 'encoder.transformer.layers.2.1.net.1.weight', 'encoder.transformer.layers.2.1.net.1.bias', 'encoder.transformer.layers.2.1.net.4.weight', 'encoder.transformer.layers.2.1.net.4.bias', 'encoder.transformer.layers.3.0.norm.weight', 'encoder.transformer.layers.3.0.norm.bias', 'encoder.transformer.layers.3.0.to_qkv.weight', 'encoder.transformer.layers.3.0.to_out.0.weight', 'encoder.transformer.layers.3.0.to_out.0.bias', 'encoder.transformer.layers.3.1.net.0.weight', 'encoder.transformer.layers.3.1.net.0.bias', 'encoder.transformer.layers.3.1.net.1.weight', 'encoder.transformer.layers.3.1.net.1.bias', 'encoder.transformer.layers.3.1.net.4.weight', 'encoder.transformer.layers.3.1.net.4.bias', 'encoder.transformer.layers.4.0.norm.weight', 'encoder.transformer.layers.4.0.norm.bias', 'encoder.transformer.layers.4.0.to_qkv.weight', 'encoder.transformer.layers.4.0.to_out.0.weight', 'encoder.transformer.layers.4.0.to_out.0.bias', 'encoder.transformer.layers.4.1.net.0.weight', 'encoder.transformer.layers.4.1.net.0.bias', 'encoder.transformer.layers.4.1.net.1.weight', 'encoder.transformer.layers.4.1.net.1.bias', 'encoder.transformer.layers.4.1.net.4.weight', 'encoder.transformer.layers.4.1.net.4.bias', 'encoder.transformer.layers.5.0.norm.weight', 'encoder.transformer.layers.5.0.norm.bias', 'encoder.transformer.layers.5.0.to_qkv.weight', 'encoder.transformer.layers.5.0.to_out.0.weight', 'encoder.transformer.layers.5.0.to_out.0.bias', 'encoder.transformer.layers.5.1.net.0.weight', 'encoder.transformer.layers.5.1.net.0.bias', 'encoder.transformer.layers.5.1.net.1.weight', 'encoder.transformer.layers.5.1.net.1.bias', 'encoder.transformer.layers.5.1.net.4.weight', 'encoder.transformer.layers.5.1.net.4.bias', 'decoder.0.weight', 'decoder.0.bias', 'decoder.2.weight', 'decoder.2.bias', 'decoder.2.running_mean', 'decoder.2.running_var', 'decoder.2.num_batches_tracked', 'decoder.3.weight', 'decoder.3.bias', 'decoder.5.weight', 'decoder.5.bias', 'decoder.5.running_mean', 'decoder.5.running_var', 'decoder.5.num_batches_tracked', 'decoder.6.weight', 'decoder.6.bias', 'decoder.8.weight', 'decoder.8.bias', 'decoder.8.running_mean', 'decoder.8.running_var', 'decoder.8.num_batches_tracked', 'decoder.9.weight', 'decoder.9.bias', 'decoder.11.weight', 'decoder.11.bias', 'decoder.11.running_mean', 'decoder.11.running_var', 'decoder.11.num_batches_tracked', 'decoder.12.weight', 'decoder.12.bias', 'decoder.14.weight', 'decoder.14.bias', 'decoder.14.running_mean', 'decoder.14.running_var', 'decoder.14.num_batches_tracked', 'decoder.15.weight', 'decoder.15.bias', 'decoder.17.weight', 'decoder.17.bias', 'decoder.17.running_mean', 'decoder.17.running_var', 'decoder.17.num_batches_tracked', 'decoder.18.weight', 'decoder.18.bias', 'decoder.20.weight', 'decoder.20.bias', 'decoder.20.running_mean', 'decoder.20.running_var', 'decoder.20.num_batches_tracked', 'decoder.21.weight', 'decoder.21.bias'])

所以多卡的state_dict因为没有param_groups导致无法从检查点恢复训练,但是我不知道为什么会这样，如何解决？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

17条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-02-20 16:29
关注
引自免费微信小程序：皆我百晓生

在多GPU并行训练中，优化器的state_dict确实可能会与单GPU训练时有所不同。PyTorch中的DataParallel或多进程并行（如DistributedDataParallel, DDP）会处理优化器的状态以适应分布式环境。在DDP中，优化器的state_dict包含了所有参与计算的多个GPU上的参数梯度平均值，以及可能与分布相关的额外信息。

出现KeyError: 'param_groups'错误通常是因为加载的state_dict不包含优化器的基本结构——param_groups，这是优化器内部用来组织不同参数组和它们的学习率、权重衰减等属性的关键部分。

解决这个问题，你需要确保：

在保存优化器状态时，正确地使用了适用于分布式训练的方式保存整个优化器的state_dict。
加载优化器状态时，考虑到了是否需要通过map_location映射到当前设备上，并且在加载后正确应用到多GPU设置下的优化器实例上。

针对您的代码片段，可以尝试如下修改：

import torch from torch.nn.parallel import DistributedDataParallel as DDP # 假设self.opt是已经在分布式环境中初始化好的优化器 if bf.exists(opt_checkpoint): logger.log(f"loading optimizer state from checkpoint: {opt_checkpoint}") # 确保在加载时映射到正确的设备（主卡） map_location = lambda storage, loc: storage.cuda(self.rank) # 假设self.rank是当前进程的全局rank state_dict = torch.load(opt_checkpoint, map_location=map_location) # 如果使用了DDP，需要先获取优化器原始的state_dict if isinstance(self.opt, DDP): self.opt.module.optimizer.load_state_dict(state_dict) else: self.opt.load_state_dict(state_dict)

这里需要注意的是，如果你使用了DDP对模型和优化器进行封装，那么在加载优化器状态时，应加载到.module.optimizer而不是直接加载到.opt。这是因为DDP会对优化器进行一层封装，真实的优化器位于.module.optimizer下。

另外，还需确认你的检查点文件是在与当前运行环境相匹配的并行模式下生成的，即如果当前是多GPU并行，那么加载的checkpoint也应该是来自同样配置下的训练过程。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(16条)

报告相同问题？

关注问题

python使用多gpu问题 python pytorch 深度学习
2022-07-20 11:57

回答 3 已采纳 DDP神坑，基本无解换launch看看？ python -m torch.distributed.launch或者看下这个 distributed training no
YOLO V5怎么多GPU同时训练一个项目？深度学习神经网络
2021-05-11 10:28

回答 1 已采纳 parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu') defau
ubuntu下的tensorflow检测不到GPU tensorflow ubuntu
2022-04-01 17:23

回答 1 已采纳检查tensorflow cuda cudnn版本是否对应
gpu编程如何一步步学习_如何使用keras，python和深度学习进行多GPU训练
2020-11-20 07:20

weixin_39960710的博客点击上方“Python数据科学”，星标...作者：pyimagesearch原文链接：https://www.pyimagesearch.com/2017/10/30/how-to-multi-gpu-training-with-keras-python-and-deep-learning/编译：AI算法与图像处理内容简介K...
GPU和CPU之间的传输速率 c++
2020-08-31 19:25

回答 1 已采纳显存带宽是 GPU 和显存连接的数据传输率，也就是你说的显存频率 x 位宽。 CPU和GPU传输速率主要取决于北桥和CPU，以及北桥和PCIE的速率。北桥和CPU，也就是 Intel QPI总线，
跑深度学习为什么两个软件显示的的GPU资源使用不一样啊？ python 机器学习深度学习
2021-07-24 21:59

回答 1 已采纳鄙人接触过AI换脸有两个版本一个是英伟达用CUDA技术还有个就是AMD和intel 两者不能混用据我的知识库了解深度学习是吃显存的
请问一下CPU和GPU之间拷贝数据的速度是什么决定的？？ c++
2018-06-01 14:26

回答 2 已采纳如果是连续的传输率，是显卡显存控制器的位宽和频率决定的。位宽x频率=带宽，带宽决定了持续传输的速度上限。比如说一块显卡使用GDDR5内存，频率5000MHz，位宽=128bit，那么速率就是=64
精通GPU编程，高效处理Pandas
2023-08-03 21:18

python慕遥的博客 ETL阶段的速度通常要快8-20倍，因此加载2GB数据集的时间只需几秒钟，而在CPU上需要几分钟，数据清理和转换的速度也快了很多，所有这一切只需一个熟悉的界面和最少的代码改动。此外，由于我们是人而不是机器，也会...
多GPU数据并行训练的加速原理到底是什么？ tensorflow 深度学习神经网络
2021-02-18 11:11

回答 2 已采纳没错，本质是learning rate，且每个batch其实后面都要求平均梯度再反向传播，多gpu时每个batch的data多了，这时，每个batch的learning rate不变则每个da
pytorch不调用gpu运算 pytorch 深度学习
2022-11-11 16:14

回答 2 已采纳给你找了一篇非常好的博客，你可以看看是否有帮助，链接：pytorch无法调用gpu的一些解决方法
tensorflow-gpu为何无法调用GPU进行运算??? tensorflow
2018-11-08 07:52

回答 3 已采纳 GT730有好几种，一个是GT640的马甲卡，采用Kepler核心，384 CUDA Cores，叫做GK208/GK107，反正有个K，这个支持CUDA 3.0，可以跑TF（但是相当慢）还有一个
Python：Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略
2022-09-14 00:43

一个处女座的程序猿的博客 Python：Python语言的简介(语言特点/pyc介绍/Python版本语言兼容问题(python2 VS Python3))、安装、学习路线(数据分析/机器学习/网页爬等编程案例分析)之详细攻略目录 Python语言的简介 Python语言IDE的...
opengl渲染过程中cpu和gpu分别完成那些工作
2017-08-28 06:11

回答 2 已采纳简单来讲：cpu主要完成View测量和布局，主要把内容生成多方形和texture纹理，gpu把多方性和texture纹理格式化，这样就能绘制在屏幕上了。你可以这样理解，cpu主要做逻辑操作，gpu分担
33 - 完整讲解PyTorch多GPU分布式训练代码编写
2022-05-02 20:00

取个名字真难呐的博客文章目录1. 单机单卡1.1 环境配置1.2 模型拷贝1.3 数据拷贝1.4 模型保存1.5 模型的加载1.6 注意事项2. 单机多卡2.1 环境配置 1. 单机单卡 1.1 环境配置判断显卡是否可用 ...# 通用编程语句 device = torch.d
【编程语言】Python
2024-10-05 22:14

云 · 神客的博客 Python在各个编程语言中比较适合新手学习，Python解释器易于扩展，可以使用或其他可以通过C调用的语言扩展新的功能和。Python也可用于可定制化软件中的扩展程序语言。Python丰富的标准库，提供了适用于各个主要系统...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月20日

悬赏问题

¥30 模拟电路 logisim
¥15 PVE8.2.7无法成功使用a5000的vGPU，什么原因
¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音
¥30 Pytorch深度学习服务器跑不通问题解决？
¥15 部分客户订单定位有误的问题
¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
¥15 Bug traq 数据包大概什么价

多GPU和单GPU状体字典不一样

17条回答 默认 最新

问题事件

悬赏问题

17条回答默认最新