微调ChatGLM3-6b,CUDA out of memory

如图，我用的算力型号是autodl的NVIDIA L40 ，显示显存有45G，为什么还是显示显存不够？精度改成float16了，batch_size也设置为1，input output的maxlength也减少了，数据集大概有1800条数据。nvidia smi指令也显示没有别的进程占用显存。
求解，我使用的自有数据集，想试下单张显卡lora微调。怎么让模型跑起来？是参数不对还是数据集太大？还是什么原因…

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
道友老李 JWE233286一种基于机器视觉的水表指针读数识别及修正的方法专利发明者 2025-03-10 23:37
关注
让【道友老李】来帮你解答，本回答参考gpt编写，并整理提供，如果还有疑问可以点击头像关注私信或评论。
如果答案让您满意，请采纳、关注，非常感谢！
根据您描述的情况，可能存在以下一些原因导致显存不够，以及解决方法：
模型参数过多：即模型中的参数量过大，导致显存不够。您可以尝试减少模型的层数、通道数，或者使用更小的模型结构。
数据集过大：数据集中的样本数量过多，导致显存不足。您可以尝试对数据集进行分批次加载，或者使用数据增强技术减少样本数量。
内存泄漏：存在内存泄漏的情况下也可能导致显存不足。您可以检查代码中是否存在内存泄漏的情况，及时释放不必要的变量。
使用的深度学习框架在计算时可能会占用一部分显存，您可以尝试优化框架或者使用其他框架。以下是使用Python中PyTorch库简单示例的代码，用于设置模型和数据集参数：

import torch import torch.nn as nn from torch.utils.data import DataLoader, Dataset # 定义模型 class Model(nn.Module): def __init__(self): super(Model, self).__init__() self.fc = nn.Linear(100, 10) # 例如输入维度为100，输出维度为10 def forward(self, x): x = self.fc(x) return x # 定义数据集 class CustomDataset(Dataset): def __init__(self, data): self.data = data def __len__(self): return len(self.data) def __getitem__(self, idx): sample = self.data[idx] return sample # 参数设置 model = Model() optimizer = torch.optim.SGD(model.parameters(), lr=0.01) criterion = nn.CrossEntropyLoss() batch_size = 1 max_length = 100 # 输入输出的最大长度 data = [] # 自有数据集，由1800条样本组成 dataset = CustomDataset(data) dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True) # 训练模型 for input_data in dataloader: optimizer.zero_grad() output = model(input_data) loss = criterion(output, labels) loss.backward() optimizer.step()

您可以根据实际情况修改模型参数、数据集参数以及训练过程中的优化算法等，希望以上信息能够帮助到您解决问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在矩池云使用&微调ChatGLM3-6B教程
2024-01-10 14:25

机器学习是魔鬼的博客 ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B 引入了如下特性：更强大的基础模型： ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更...
使用PEFT库进行ChatGLM3-6B模型的LORA高效微调
2024-06-26 20:18

CodeDevMaster的博客 LORA(Low-Rank Adaptation)是一种高效的模型微调技术,它可以通过在预训练模型上添加额外的低秩权重矩阵来微调模型,从而仅需更新很少的参数即可获得良好的微调性能。这相比于全量微调大幅减少了训练时间和计算资源的...
基于 P-Tuning的高效微调ChatGLM2-6B
2024-01-04 14:56

源启智能的博客 P-tuning v2在不同的模型规模（从300M到100B的参数）和各种困难的NLU任务（如问答和序列标注）上的...与微调相比，P-tuning v2每个任务的可训练参数为0.1%到3%，这大大降低了训练时间的内存消耗和每个任务的存储成本
使用PEFT库进行ChatGLM3-6B模型的QLORA高效微调
2024-07-10 17:13

CodeDevMaster的博客 QLoRA是LoRA的扩展版本,在微调过程中引入了量化技术,以进一步提高参数效率。QLoRA利用LoRA的原理，并引入了4位NormalFloat（NF4）量化和双重量化技术，进一步减少了存储和计算资源的使用。
ChatGLM3-6B模型部署微调实战
2024-07-31 23:51

高兴就好(石的博客正如此前所说，在OpenAI几乎定义了整个前沿AI应用开发标准的当下，提供一个OpenAI风格的API调用方法，毫无疑问可以让ChatGLM3模型无缝接入OpenAI开发生态。对于这种启动方式，官方提供的脚本名称是web_demo_gradio....
ChatGLM2-6B微调实践-P-Tuning方案
2023-10-08 14:18

AI工程师笔记的博客准备我们自己的数据集，分别生成训练文件和测试文件这两个文件，放在目录 ChatGLM2-6B/ptuning/myDataset/ 下面。执行web_demo.sh，访问http://xxx.xxx.xxx.xxx:7860。加载模型，需要从网上下载模型的7个分片文件，...
chatglm2-6b在P40上做LORA微调
2024-08-13 17:09

京东云开发者的博客 paper：LORA（Low-Rank Adaptation of Large Language Models）微调方法：冻结预训练好的模型权重参数，在冻结原模型参数的情况下，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数。LoRA 的思想...
【LLM大模型】chatglm2-6b在P40上做LORA微调
2024-07-04 16:08

LLM.的博客大模型的技术应用已经遍地开花。最快的应用方式无非是利用自有垂直领域的数据进行模型微调。chatglm2-6b在国内开源的大模型上，...本文章分享的内容是用chatglm2-6b模型在集团EA的P40机器上进行垂直领域的LORA微调。
[大模型]ChatGLM3-6B 微调实践
2024-03-27 14:24

A爱了个I的博客 ChatGLM3-6B 是 ChatGLM3 系列中的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B 引入了如下特性：a、更强大的基础模型： ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了...
5 -《本地部署开源大模型》在Ubuntu 22.04系统下ChatGLM3-6B高效微调实战
2024-10-15 17:31

文文戴的博客在Ubuntu 22.04系统下ChatGLM3-6B高效微调实战
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月10日

微调ChatGLM3-6b,CUDA out of memory

3条回答 默认 最新

问题事件

3条回答默认最新