多卡训练torch.distributed.run出现很多无占用率的进程

多卡训练，为什么每张卡上会有四个进程？
命令是这样的
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.run --nproc_per_node=4 train.py --weight '' --cfg ./models/yolov5s.yaml --data ./data/zwl.yaml --batch-size 16

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
百鸣 2023-07-31 09:57
关注
在使用 torch.distributed.run 进行多卡训练时，每张卡上有四个进程的情况通常是由于使用了混合精度训练（Mixed Precision Training）和分布式训练（Distributed Training）所导致的。

混合精度训练使用了浮点16位（half precision）进行计算，以提高训练的速度和效率。而在分布式训练中，通常会使用一个主进程（master process）和多个工作进程（worker process）来对模型进行分布式训练。

具体来说，在您的命令中，torch.distributed.run 启动了四个进程，每个进程都被分配到一个 GPU 上进行训练。这四个进程分别是：

主进程（master process）：主要负责协调和监控其他进程的工作，例如启动训练、同步参数等功能。

数据加载进程（data loading process）：用于并行加载数据，并将加载后的数据传输到 GPU。

模型初始化进程（model initialization process）：负责在每个 GPU 上初始化模型的副本。

训练进程（training process）：每个进程在各自的 GPU 上执行训练操作，对模型进行前向传播、反向传播和参数更新。

这样设计的目的是为了充分利用多张 GPU 进行分布式训练，并提高训练速度和性能。

在任务完成后，这些进程会自动退出。如果您观察到某些进程没有被充分利用或存在无占用率的情况，可能是由于数据加载、模型初始化或训练过程中的某些瓶颈导致的。您可以通过调整数据加载、模型结构、训练参数等来优化训练过程，以提高 GPU 利用率和训练效果。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

关于多卡训练Bart的问题 pytorch 深度学习自然语言处理
2022-07-26 22:02

回答 1 已采纳通常的多卡训练是指每个显卡上都加载一样的模型，然后把 batch 平分到多卡上计算梯度后汇总，你报错在 gpu2，基本上断定多卡没问题，而是显存不够应对 BART 的大小。如果你要拆分模型以减轻显存消
YOLO V5怎么多GPU同时训练一个项目？深度学习神经网络
2021-05-11 10:28

回答 1 已采纳 parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu') defau
react使用 ant design table组件进行操作后,刷新页面会出现复选框残留问题 react.js 前端
2022-03-22 10:16

回答 1 已采纳 selectedRowKeys 清空如果有selectedRows 也清空
【深度学习】多卡训练__单机多GPU方法详解（torch.nn.DataParallel、torch.distributed）
2023-03-23 22:13

秋冬无暖阳°的博客【深度学习】多卡训练__单机多GPU方法详解（torch.nn.DataParallel、torch.distributed）
vue中elementui的下拉框数据太大卡顿 vue.js
2021-09-28 14:14

回答 4 已采纳巧妙解决element-ui下拉框选项过多的问题 - Jason-HHC - 博客园 1. 场景描述不知道你有没有这样的经历，下拉框的选
C#问题，如何实现15693多卡重复查询，目前状态是，程序运行读卡器查询一次卡，然后就结束。想要实现一直查询的状态。 c# wpf
2022-06-02 17:08

回答 1 已采纳读卡器，读写是会有响应时间的，特别是当查询到数据时，对数据查询或者更新时，尽量异步更新或者开线程更新，这样不会阻塞设备读取的线程在定时器或者 while 中，增加 Thread.Sleep(1
yolo用hook取中间特征人工智能目标检测计算机视觉
2022-12-24 23:09

回答 1 已采纳在使用单机多卡训练的情况下，由于模型的结构被封装在了DistributedDataParallel模块中，因此在访问模型的层时应该使用model.module.children而不是model.chi
Pytorch单机多卡和多机多卡训练
2021-04-14 10:22

lbj23hao1的博客 torch.distributed 提供了更好的接口和并行方式，搭配多进程接口 torch.multiprocessing 可以提供更加高效的并行训练。 GIL含义解释多进程我们都知道由于 GIL 的存在， python 要想真正的并行必须使用多进
谁知道百度后台用的什么技术,感觉处理好快,而且不管网多卡打开速度都高于一般网站,坐等???
2016-09-28 14:13

回答 1 已采纳使用cdn，分布式分发网络。
RuntimeError: CUDA error: invalid device ordinal 机器学习深度学习神经网络
2021-05-31 11:10

回答 2 已采纳在程序的前面加上，后面的数字要看你的显卡数目，意思是对该程序显示哪几张显卡可以使用。如果只有一张的话，要改成0.然后就是torch设置显卡的问题。最好这么写：torch.device('cuda:
asp:GridView加载8万+的数据时网页刷新卡顿 asp.net
2019-06-12 11:19

回答 2 已采纳自己增加了一个分页控件，每页20条数据。已解决。
torch DDP多卡训练教程记录
2023-11-10 21:34

Zero_to_zero1234的博客简明教程看这里 -->--》详细解答了pipeline减少GPU占用看这里 -->--》解答了如何先加载到cpu解决0卡显存占用过多问题DDP模型加载和保存看这里 – >--》解释和解决ddp模型名被更改后如何保存加载的问题多机多卡更多...
PyTorch~单机多卡
2023-01-01 00:39

whaosoft143的博客在 1.0 之后，官方终于对分布式的常用方法进行了封装，支持 all-reduce，broadcast，send 和 receive 等等。通过 MPI 实现 CPU 通信，通过 NCCL 实现 GPU 通信。...whaosoft aiot http://143ai.com
Pytorch并行训练方法-单机多卡
2022-04-02 10:21

永不言弃的小颖子的博客 DataParallel 可以帮助我们（使用单进程控）将模型和数据加载到多个 GPU 中，控制数据在 GPU 之间的流动，协同不同 GPU 上的模型进行并行训练（细粒度的方法有 scatter，gather 等等）。 DataParallel 使用起来非常...
pytorch指定用多张显卡训练_Pytorch中多GPU训练指北
2020-12-19 20:22

weixin_40001395的博客前言在数据越来越多的时代，随着模型规模参数的增多，以及数据量的不断提升，使用多GPU去训练是不可避免的事情。Pytorch在0.4.0及以后的版本中已经提供了多GPU训练的方式，本文简单讲解下使用Pytorch多GPU训练的方式...
pytorch 绘制多个算法loss_PyTorch并行训练指南：单机多卡并行、混合精度、同步BN训练...
2021-02-04 18:39

易烫YCC的博客 0 写在前面这篇文章是我做实验室组会汇报的时候顺带整理的文档，在1-3部分参考了很多知乎文章，感谢这些大佬们的工作，所以先贴出Reference，本篇文章结合了这些内容，加上了我的一些理解，不足之处还请大家谅解，...
pytorch单机多卡及常见问题
2022-11-15 00:30

3D感知巨头的博客（简言之，test的时候，batch_size可以增大N倍）一、pytorch 使用单机多卡，大体上有两种方式：简单方便的 torch.nn.DataParallel(很 low，但是真的很简单很友好) 使用 torch.distributed 加速并行训练(推荐，但是...
Pytorch 分布式训练（DP/DDP）
2021-12-23 14:35

ytusdc的博客 1、分布式训练：模型并行和数据并行 ...注意：多卡训练要考虑通信开销的，是个trade off的过程，不见得四块卡一定比两块卡快多少，可能是训练到四块卡的时候通信开销已经占了大头下面是一个简单的
pytorch-lightning多卡训练中途卡死，GPU利用率100%
2023-04-12 09:39

qq_52423671的博客使用torch1.7.1+cuda101和pytorch-lightning==1.2进行多卡训练，模式为'ddp'，中途会出现训练无法进行的问题。发现是版本问题，升级为pytorch-lightning==1.5.10问题解除。在pip安装过程中会卸载掉我的torch，指定...
多卡训练DataParallel和DistributedDataParallel的使用和区别
2022-10-11 22:57

高启强668的博客分布式训练，DataParallel，DistributedDataParallel，DP，DDP，init_process_group，单机单卡，单机多卡，多机多卡
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月24日

悬赏问题

¥15 oracle报skip not validate connection
¥15 请问左奇异向量怎么求解呢？
¥60 linux 系统中的wps每次使用退出都产生两个多余文件
¥15 有偿求一款知识付费+流量主小程序开源
¥15 Arcgis pro制图
¥15 vivado综合时间过长
¥15 uniapp时间组件切换语言问题
¥15 求解惑：NPOI在excel中插入图片失败
¥15 寻找基于运营商机顶盒的播放器
¥15 fluent二维平板强迫振动

多卡训练torch.distributed.run出现很多无占用率的进程

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新