模型微调时 CUDA out of memory 的问题

用 LoRA 微调 llama 模型的时候 CUDA out of memory 了

使用2张A100，40G显存，已经将 batchsize 降为2了，也设置了set_per_process_memory_fraction，nvidia-smi没有占用显存，ps -ef也没有僵尸进程。求指教！

报错信息⬆️

nvidia-smi⬆️

ps -ef 查看僵尸进程⬆️

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间代码工作室 Java领域优质创作者 2024-03-24 22:16
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
问题描述：在使用 LoRA 进行微调 llama 模型时，出现了 CUDA out of memory 的错误提示。已经尝试将 batchsize 降为2，并设置了 set_per_process_memory_fraction，但仍无法解决问题。同时，nvidia-smi 也未显示占用显存，ps -ef 查看也没有僵尸进程。求教解决方案。解决方案：
检查显存是否足够首先，需要确认显存是否足够。在使用 LoRA 进行微调 llama 模型时，需要同时加载原始模型和微调模型，因此会占用较大的显存空间。虽然使用了 2 张 A100 显卡，但如果数据量过大，仍可能导致显存不足。可以尝试降低 batchsize，或使用更多的显卡来缓解显存压力。
检查代码中的内存泄露问题如果显存足够，可以检查代码中是否存在内存泄露问题。可能存在一些变量占用了过多的内存，导致显存不足。可以使用 Python 的 memory_profiler 库来检查代码中的内存使用情况。示例代码：

from memory_profiler import profile @profile def my_function(): # your code here

检查 CUDA 版本和驱动版本是否匹配如果显存足够，代码中也不存在内存泄露问题，那么可能是 CUDA 的版本和驱动版本不匹配导致的。可以使用以下命令来检查 CUDA 和驱动的版本：

nvcc --version nvidia-smi

如果版本不匹配，需要卸载当前版本，下载安装匹配的版本。 4. 检查模型配置是否正确如果以上方法仍然无法解决问题，可以检查模型配置是否正确。可能存在一些配置参数设置不当，导致模型无法正常运行。以上是解决问题的一些常见方法和思路，根据具体情况可以选择适合的解决方案。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

深度学习模型的问题。人工智能深度学习神经网络
2021-03-25 13:45

回答 2 已采纳只要模型结构不变，那么模型大小是一样的，只不过模型里面的超参会不一样，超参会随着数据和训练次数等因素变化。一般来说，同种类型的网络(像yolo5，有s,l,m,x四个大小的)，网络越大的效果会越好
灰度bean有微调，kyro反序列化时如何支持 java spring 分布式有问必答
2022-07-11 12:15

回答 3 已采纳 Kryo 序列化实现方式CompatibleFieldSerializerCompatibleFieldSerializer 也是 FieldSerializer 的一个扩展。它也提供了部分“向后兼容
内存不足：解决大模型训练时的CUDA Out of Memory错误
2024-08-08 08:00

默语的博客今天我将和大家分享在大模型训练时如何解决CUDA Out of Memory错误的解决方案。这个问题在深度学习领域非常常见，尤其是在处理大型数据集和复杂模型时。希望这篇文章能帮助大家更好地解决这一问题，提高模型训练的...
BERT微调报错KeyError: tensorflow 机器学习深度学习神经网络自然语言处理
2020-05-24 22:52

回答 2 已采纳 https://github.com/terrifyzhao/bert-utils/issues/10
yolov5如何在已有的模型上增加新的类别 python 深度学习目标检测
2022-07-19 11:33

回答 1 已采纳对差不多是，但是你可以基于原来27种的数据的权重对网络进行微调，epochs也不用设置得那么多了，原来适配于27种的权重用于28种的分类性能肯定会下降的
MFC的slider控件左右微调箭头问题 c++ mfc
2015-05-25 06:44

回答 2 已采纳用Scrollbar代替Slider
大模型训练中CUDA out of memory的几种解决方法
2024-05-26 12:05

smartcat2010的博客 2. 如果需要较大的batch size来达到预期训练指标效果，则使用gradient accumulation来累积梯度，达到等价效果的同时，占用显存小；...9. Model并行或者Pipeline并行，把模型拆分至多卡。4. 减小训练数据样本的长度。
请问SimCSE中对比学习是用于预训练中还是微调中？ python
2023-02-27 16:13

回答 2 已采纳我好像知道了，学了就忘，是加载训练好的模型，利用对比学习对模型上的参数进行微调，谢谢大家！
随机字符串微调器问题 php
2012-10-20 21:16

回答 1 已采纳 You can try $words = array('Word1','Word2','Word3'); $text = "Lorem Ipsum is simply dummy text of
FOC中电流环的微调是根据什么来调的？单片机算法
2023-02-01 19:48

回答 2 已采纳 FOC中电流环的微调通常是根据电机反馈的相电流和期望相电流值之间的误差来调整的。相电流值可以通过空间矢量控制算法或者其他相关技术计算。一般而言，通过不断调整电流环的控制算法或者参数，可以使得相电流趋近
【AI大模型】Transformers大模型库（六）：torch.cuda.OutOfMemoryError: CUDA out of memory解决
2024-06-11 01:09

LDG_AGI的博客采用GPU进行大模型训练及推理，在初期遇到最多的错误就是CUDA out of memory，主要意味着你的模型在训练或运行过程中尝试分配的GPU内存超出了可用部分，简称“爆显存”
微调器（Spinner）中getValue用法 html5 javascript jquery
2021-05-04 16:28

回答 5 已采纳 https://www.runoob.com/jqueryui/api-spinner.html
torch.cuda.OutOfMemoryError: CUDA out of memory.
2024-04-08 15:57

wxr0616的博客今天微调chatglm3-6b的时候先后出现torch.cuda.OutOfMemoryError: CUDA out of memory.和torch.distributed.elastic.multiprocessing.api: [ERROR] failed (exitcode: 1) local_rank: 0 (pid: 780) of binary，我先...
【已解决】探究CUDA out of memory背后原因，如何释放GPU显存？
2024-04-13 09:12

2401_83817392的博客关于CUDA GPU显存管理GPU显存占用率和存入的数据尺寸成正相关，越大的数据占用显存越多只要使用了GPU，就至少会占x自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月24日

悬赏问题

¥15 Mac版Fiddler Everywhere4.0.1提示强制更新
¥15 android 集成sentry上报时报错。
¥50 win10链接MySQL
¥35 跳过我的世界插件ip验证
¥15 抖音看过的视频，缓存在哪个文件
¥15 自定义损失函数报输入参数的数目不足
¥15 如果我想学习C大家有是的的资料吗
¥15 根据文件名称对文件进行排序
¥15 deploylinux的ubuntu系统无法成功安装使用MySQL❓
¥15 有人会用py或者r画这种图吗

模型微调时 CUDA out of memory 的问题

用 LoRA 微调 llama 模型的时候 CUDA out of memory 了

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新