单卡显存不足时如何进行多卡推理？

在运行VideoChat-7B等预训练大模型时，所需要的显存超出了我单卡的显存，我在服务器上有4张3080-10G显卡，怎样才能同时使用4张卡来运行这个模型？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-05-28 12:59
关注
引自免费微信小程序：皆我百晓生

要解决这个问题，你需要利用NVIDIA的并行计算平台CUDA以及cuDNN库来实现模型在多GPU上的分布式训练和推理。这里是一个基于PyTorch的示例步骤，展示如何将 VideoChat-7B 等大型模型扩展到多GPU上。

首先，确保你的系统已经安装了最新版本的PyTorch、CUDA和cuDNN，并且所有显卡都支持NCCL（NVIDIA Collective Communication Library）用于GPU间的通信。你可以通过以下命令检查NCCL版本：

nvidia-smi --query-gpu=nccl_version,memory.total --format=csv

接下来，我们将分步设置多GPU环境并运行模型：

安装必要的库: 如果尚未安装，可以使用pip安装torch, torchvision, 和 torch_cluster 库：

pip install torch torchvision torch_cluster

编写多GPU运行脚本:

在Python脚本中，你需要设置设备（这里指GPU），然后创建一个数据加载器，使其能够并行地处理每个GPU的数据。最后，在模型上分布数据，并执行推理。

import torch from torch.nn.parallel import DistributedDataParallel as DDP from torch.utils.data.distributed import DistributedSampler # 设置设备 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") num_gpus = torch.cuda.device_count() # 假设你有一个名为data_loader的函数，它返回一个数据集迭代器 data_loader = data_loader(batch_size=your_batch_size) # 创建分布式数据加载器 sampler = DistributedSampler(data_loader.dataset) data_loader = torch.utils.data.DataLoader( data_loader.dataset, batch_size=data_loader.batch_size, shuffle=False, num_workers=data_loader.num_workers, pin_memory=True, sampler=sampler ) # 将模型复制到所有GPU上，并使用DDP封装 model = YourModelClass(*args, **kwargs).to(device) model = DDP(model, device_ids=[i for i in range(num_gpus)]) # 开始推理 with torch.no_grad(): for inputs, targets in data_loader: inputs, targets = inputs.to(device), targets.to(device) outputs = model(inputs) # 处理输出...

启动多进程: 由于PyTorch不支持在单个进程中跨多个GPU运行，你需要为每个GPU启动一个新的进程。可以使用torch.multiprocessing.spawn来实现这一点。这是一个简单的例子：

import torch.multiprocessing as mp def run(rank, world_size): # 上述脚本中的代码放在这里，但不需要device设置部分 ... if __name__ == "__main__": mp.spawn(run, args=(num_gpus,), nprocs=num_gpus, join=True)

配置环境变量: 在运行脚本之前，确保设置了以下环境变量，以便正确地分配工作负载：

export MASTER_ADDR=localhost export MASTER_PORT=12345 CUDA_VISIBLE_DEVICES=0,1,2,3 python your_script.py

这里，MASTER_ADDR和MASTER_PORT用于定义主节点的地址和端口，CUDA_VISIBLE_DEVICES指定参与工作的GPU列表。

注意：上述代码仅作为示例，实际应用中你需要根据具体的模型和数据集调整代码。例如，可能需要修改模型类YourModelClass、数据加载器data_loader和模型的输入输出处理逻辑。如果你使用的是预训练模型，确保该模型支持并行化。对于VideoChat-7B这样的模型，你可能需要找到相应的开源实现，因为它们通常不包含在标准的PyTorch库中。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于多卡训练Bart的问题 pytorch 深度学习自然语言处理
2022-07-26 22:02

回答 1 已采纳通常的多卡训练是指每个显卡上都加载一样的模型，然后把 batch 平分到多卡上计算梯度后汇总，你报错在 gpu2，基本上断定多卡没问题，而是显存不够应对 BART 的大小。如果你要拆分模型以减轻显存消
C#问题，如何实现15693多卡重复查询，目前状态是，程序运行读卡器查询一次卡，然后就结束。想要实现一直查询的状态。 c# wpf
2022-06-02 17:08

回答 1 已采纳读卡器，读写是会有响应时间的，特别是当查询到数据时，对数据查询或者更新时，尽量异步更新或者开线程更新，这样不会阻塞设备读取的线程在定时器或者 while 中，增加 Thread.Sleep(1
YOLO V5怎么多GPU同时训练一个项目？深度学习神经网络
2021-05-11 10:28

回答 1 已采纳 parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu') defau
【实践】VLLM显存暴增 | 多卡推理 | 批量推理
2024-04-23 22:39

AI民工（读研版的博客用两张A800跑Llama3-8B，按理说显存占用应该在16G以上，浮动2~3G，但是发现显存直接拉满了，一共花了140G发现通过vllm.LLM创建模型时，有个参数控制GPU的使用量，其默认值为0.9，正好是140/160将改成0.15，也就是160...
谁知道百度后台用的什么技术,感觉处理好快,而且不管网多卡打开速度都高于一般网站,坐等???
2016-09-28 14:13

回答 1 已采纳使用cdn，分布式分发网络。
yolo用hook取中间特征人工智能目标检测计算机视觉
2022-12-24 23:09

回答 1 已采纳在使用单机多卡训练的情况下，由于模型的结构被封装在了DistributedDataParallel模块中，因此在访问模型的层时应该使用model.module.children而不是model.chi
asp:GridView加载8万+的数据时网页刷新卡顿 asp.net
2019-06-12 11:19

回答 2 已采纳自己增加了一个分页控件，每页20条数据。已解决。
关于多卡推理的猜想
2021-10-13 20:41

我为什么这么菜.的博客 1.分组卷积设计动机：GPU显存不足...shufflenet增加了通道混洗结构，增强特征通信，但如果在多卡上分别进行组卷积，则对显卡之间的通信速度要求较高。 2.深度可分离卷积一种极致分组的分组卷积，混洗方式为1*1卷积。
react使用 ant design table组件进行操作后,刷新页面会出现复选框残留问题 react.js 前端
2022-03-22 10:16

回答 1 已采纳 selectedRowKeys 清空如果有selectedRows 也清空
vue中elementui的下拉框数据太大卡顿 vue.js
2021-09-28 14:14

回答 4 已采纳巧妙解决element-ui下拉框选项过多的问题 - Jason-HHC - 博客园 1. 场景描述不知道你有没有这样的经历，下拉框的选
RuntimeError: CUDA error: invalid device ordinal 机器学习深度学习神经网络
2021-05-31 11:10

回答 2 已采纳在程序的前面加上，后面的数字要看你的显卡数目，意思是对该程序显示哪几张显卡可以使用。如果只有一张的话，要改成0.然后就是torch设置显卡的问题。最好这么写：torch.device('cuda:
【实践总结】vllm多卡推理
2024-07-28 20:41

Yanc_L的博客多卡推理，设置tensor_parallel_size=2，服务：Flask + gunicorn。多卡推理结果, 推理耗时11s。为什么多卡推理耗时更长了‍。环境：2* A100 40G。模型：qwen2-7B。
LLM - Baichuan-13B 多卡加载与推理测试
2023-08-29 08:00

BIT_666的博客大模型量化加载与多卡推理配置与实践。
【AI大模型】Transformers大模型库（七）：单机多卡推理之device_map
2024-06-11 20:26

LDG_AGI的博客本文简要介绍了device_map="auto"等使用方法，多数情况下与CUDA_VISIBLE_DEVICES=1,2,3一起使用，可以简单高效的进行多卡分布式推理及训练计算，至于多机多卡场景，多用torchrun和deepspeed等，后面文章会专门进行...
【大模型】Transformers库单机多卡推理之device_map
2024-07-17 16:18

酒酿小圆子～的博客 Hugging Face的库支持自动模型（AutoModel）的模型实例化方法，来自动载入并使用GPT、ChatGLM等模型。在方法中的device_map参数，可实现单机多卡推理。
大模型训练技巧｜单卡&多卡｜训练性能评测
2023-05-17 15:52

来一块葱花饼的博客大模型对于计算资源的要求越来越高，如何在有限的资源下开展训练？对于公司尤其是个人开发者来说，是一个非常有价值的问题。...本文将主要介绍大模型训练技巧，在单卡和多卡上的不同策略，以及对于性能的评测。
LLM | llama.cpp 安装使用（支持CPU、Metal及CUDA的单卡/多卡推理）
2024-09-29 23:59

宇宙有只 AGI的博客包括CUDA安装，llama.cpp C/C++、Python环境配置，GGUF模型转换、量化与推理测试
大模型训练策略：单卡or多卡
2022-11-04 13:39

Chrsitina_S的博客大模型训练策略
解决多卡加载预训练模型0卡内存占用大的问题
2023-02-20 16:29

_张一凡的博客在多卡加载与训练模型的时候，出现显卡内存不足的错误，batchsize放到很小以后观察发现第一张卡占用内存比其他几张大了很多。把预训练模型参数map到cpu上去。
关于YOLOv5的训练，GPU单卡、多卡设置，加速训练
2023-12-22 12:25

清梦枕星河~的博客在模型训练或推理时，我们都想快速完成，特别是数据量很大的时候，效率就是非常迫切需要提升的。这里简单介绍一下yolov5的多种训练方法，便于理解深度学习的模型训练方法，同时基于自身的硬件条件选择高效的训练方法...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月28日

悬赏问题

¥20 高德地图聚合图层MarkerCluster聚合多个点，但是ClusterData只有其中部分数据，原因应该是有经纬度重合的地方点，现在我想让ClusterData显示所有点的信息，如何实现？
¥100 求Web版SPC控制图程序包调式
¥20 指导如何跑通以下两个Github代码
¥15 大家知道这个后备文件怎么删吗，为啥这些文件我只看到一份，没有后备呀
¥15 C++为什么这个代码没报错运行不出来啊
¥15 一道ban了很多东西的pyjail题
¥15 关于#r语言#的问题：如何将生成的四幅图排在一起，且对变量的赋值进行更改，让组合的图漂亮、美观@（相关搜索：森林图）
¥15 C++识别堆叠物体异常
¥15 微软硬件驱动认证账号申请
¥15 GPT写作提示指令词

单卡显存不足时如何进行多卡推理？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新