大模型微调保存后，重新加载时异常

使用SFTTrainer，qLoRA 量化微调huggingface上面的大模型，包括mistral，gemma等，微调之后，使用
model.save_pretrained()保存在本地。保存的是.safetensors，看起来没什么问题，但使用llama.cpp的convert-hf-to-gguf.py 要转化为gguf格式时，会报：ValueError: Can not map tensor 'model.layers.0.mlp.down_proj.base_layer.weight' 错误，导致无法转化完成。
重新使用AutoModelForCausalLM.from_pretrained("本地保存目录") 装载时会报warning:
Unused kwargs: ['_load_in_4bit', '_load_in_8bit', 'quant_method']. These kwargs are not used in <class 'transformers.utils.quantization_config.BitsAndBytesConfig'>.
Some weights of the model checkpoint at d:\models\mistral were not used when initializing MistralForCausalLM: ['model.layers.0.mlp.down_proj.base_layer.weight', 'model.layers.0.mlp.down_proj.base_layer.weight.absmax', 'model.layers.0.mlp.down_proj.base_layer.weight.nested_absmax' ...
使用装载后model进行推理时，得到的答案是乱的（毫无逻辑，语言也是乱输出的），跟刚训练完尚未保存时的完全不同。
查看model，发现.base_layer 层的都不见了，是我保存微调的方法有问题吗？我看网上的代码都是使用model.save_pretrained来保存模型的呀。问题出在哪？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间代码工作室 Java领域优质创作者 2024-05-24 18:32
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
问题描述：使用SFTTrainer，qLoRA 量化微调huggingface上面的大模型，包括mistral，gemma等，微调之后，使用model.save_pretrained()保存在本地。保存的是.safetensors，但使用llama.cpp的convert-hf-to-gguf.py 要转化为gguf格式时，会报：ValueError: Can not map tensor 'model.layers.0.mlp.down_proj.base_layer.weight' 错误，导致无法转化完成。重新使用AutoModelForCausalLM.from_pretrained("本地保存目录") 装载时会报warning: Unused kwargs: ['_load_in_4bit', '_load_in_8bit', 'quant_method']. These kwargs are not used in class 'transformers.utils.quantization_config.BitsAndBytesConfig'. Some weights of the model checkpoint at d:\models\mistral were not used when initializing MistralForCausalLM: ['model.layers.0.mlp.down_proj.base_layer.weight', 'model.layers.0.mlp.down_proj.base_layer.weight.absmax', 'model.layers.0.mlp.down_proj.base_layer.weight.nested_absmax' ...使用装载后model进行推理时，得到的答案是乱的（毫无逻辑，语言也是乱输出的），跟刚训练完尚未保存时的完全不同。查看model，发现.base_layer 层的都不见了，是我保存微调的方法有问题吗？我看网上的代码都是使用model.save_pretrained来保存模型的呀。问题出在哪？解答：
报错原因：使用llama.cpp的convert-hf-to-gguf.py转换模型时，报错ValueError: Can not map tensor 'model.layers.0.mlp.down_proj.base_layer.weight'。这是因为SFTTrainer和qLoRA量化微调的模型中，包含了自定义的层，而gguf格式不支持自定义层，因此无法转换。
警告原因：使用AutoModelForCausalLM.from_pretrained()装载模型时，会报出Unused kwargs警告。这是因为transformers版本较新，BitsAndBytesConfig已经取代之前的_load_in_4bit、_load_in_8bit等参数，但是AutoModelForCausalLM.from_pretrained()函数中的参数仍使用旧的参数，导致警告。
模型推理乱码原因：模型推理乱码的原因可能是微调时使用的参数配置有误，或者使用了过多的量化方法。另外，由于自定义的层没能被保存，也会导致模型推理结果不正确。
解决方法：若需要将SFTTrainer和qLoRA量化微调的模型转换为gguf格式，可以使用其他转换方法（如TensorFlow Lite或ONNX等），或者去除自定义层再进行转换。需要注意的是，去除自定义层后，模型性能可能会受到影响，需要重新评估。关于AutoModelForCausalLM.from_pretrained()函数中的参数问题，可以参考transformers文档进行修改。至于模型推理乱码的问题，可以尝试重新微调模型，或者调整量化相关参数进行测试。同时也可以检查模型推理时输入数据的格式是否正确。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报
1人已打赏

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

灰度bean有微调，kyro反序列化时如何支持 java spring 分布式有问必答
2022-07-11 12:15

回答 3 已采纳 Kryo 序列化实现方式CompatibleFieldSerializerCompatibleFieldSerializer 也是 FieldSerializer 的一个扩展。它也提供了部分“向后兼容
BERT微调报错KeyError: tensorflow 机器学习深度学习神经网络自然语言处理
2020-05-24 22:52

回答 2 已采纳 https://github.com/terrifyzhao/bert-utils/issues/10
大语言模型原理与工程实践：大语言模型微调面临的挑战
2024-07-24 00:18

光剑书架上的书的博客大语言模型原理与工程实践：大语言模型微调面临的挑战作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词：大语言模型，微调，模型复杂度，数据稀疏性，迁移学习，模型解释性，工程...
加载微调器以进行下一页的长数据库查询 database jquery php
2016-07-02 16:25

回答 1 已采纳 In you case, you need to use a Page Loader. A page loader is any kind of animation that visually c
yolov5如何在已有的模型上增加新的类别 python 深度学习目标检测
2022-07-19 11:33

回答 1 已采纳对差不多是，但是你可以基于原来27种的数据的权重对网络进行微调，epochs也不用设置得那么多了，原来适配于27种的权重用于28种的分类性能肯定会下降的
请问SimCSE中对比学习是用于预训练中还是微调中？ python
2023-02-27 16:13

回答 2 已采纳我好像知道了，学了就忘，是加载训练好的模型，利用对比学习对模型上的参数进行微调，谢谢大家！
十分钟学会微调大语言模型
2024-08-02 17:03

喝不喝奶茶丫的博客在之前的文章中，我分享了一些使用大语言模型开发应用的方法，也介绍了几个开源大语言模型的...本文就来介绍一种大语言模型微调的方法，使用的工具是我最近在用的 Text Generation WebUI，它提供了一个训练LoRA的功能。
深度学习模型的问题。人工智能深度学习神经网络
2021-03-25 13:45

回答 2 已采纳只要模型结构不变，那么模型大小是一样的，只不过模型里面的超参会不一样，超参会随着数据和训练次数等因素变化。一般来说，同种类型的网络(像yolo5，有s,l,m,x四个大小的)，网络越大的效果会越好
FOC中电流环的微调是根据什么来调的？单片机算法
2023-02-01 19:48

回答 2 已采纳 FOC中电流环的微调通常是根据电机反馈的相电流和期望相电流值之间的误差来调整的。相电流值可以通过空间矢量控制算法或者其他相关技术计算。一般而言，通过不断调整电流环的控制算法或者参数，可以使得相电流趋近
微调器（Spinner）中getValue用法 html5 javascript jquery
2021-05-04 16:28

回答 5 已采纳 https://www.runoob.com/jqueryui/api-spinner.html
一套代码指令微调大模型.zip
2024-03-14 23:15

本压缩包文件“一套代码指令微调大模型.zip”似乎提供了针对垂直领域的大模型进行微调的代码和资源，这对于我们理解和应用大模型来说具有很高的价值。首先，我们要理解什么是大模型。大模型通常指的是拥有数亿甚至...
剪枝后权重文件导入失败 python 剪枝
2023-03-20 13:06

回答 10 已采纳以下答案由GPT-3.5大模型与博主波罗歌共同编写：根据你提供的信息，问题可能出在权重文件中使用了之前的自定义模块，在加载权重文件时找不到该模块从而导致错误。你可以尝试重新定义该自定义模块并加载权重文
大模型实战—通义千问大模型微调
2024-05-26 12:12

不二人生的博客当这个值较高时，适应新任务的能力会增强，但是对基础模型的影响会比较大，有过拟合的风险，尤其是在数据量有限的情况下。为了方便测试，我在云环境也创建了一个镜像，相关的环境都配置好了，可以直接使用几个国内...
解读大模型的微调
2024-05-30 16:10

AI-智能的博客又如何对大模型进行微调呢？自从GPT-2和GPT-3出现以来，可以发现在预训练的通用文本语料库上的生成式大型语言模型（LLM）具备了上下文学习的能力，这意味着如果我们想要执行LLM没有明确训练的特定或新任务，不需要...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月24日

悬赏问题

¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见
¥15 一共有五道问题关于整数幂的运算还有房间号码还有网络密码的解答？(语言-python)
¥20 sentry如何捕获上传Android ndk 崩溃
¥15 在做logistic回归模型限制性立方条图时候，不能出完整图的困难
¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动，如何解决？

大模型微调保存后，重新加载时异常

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新