Whisper模型改造，断点续训出现问题。

https://github.com/yeyupiaoling/Whisper-Finetune
我是使用上面这个代码仓的代码，对基座模型Whisper进行修改，主要是添加了其他预训练音频模型与decoder的输入进行融合。

截图是我修改模型结构的代码，是在代码仓的finetune.py里修改的。

现在遇到的问题是：我在断点续训的时候发现loss比之前的检查点（checkpoint）大很多，我觉得是前面的训练是白费的。感觉添加的模块的参数没有被保存或者加载。

下面是我加载训练好模型的代码，代码的训练方式使用的是LoRA：

有无专家可以帮忙解决一下？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
恐怖如斯恐怖如斯啊 2024-11-16 14:35
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

断点续训时遇到模型加载问题，特别是在添加了自定义层或模块的情况下，通常有几种可能的原因和解决方案：

自定义层的加载问题：确保自定义层 (CustomWhisperForConditionalGeneration) 在加载模型权重时能够正确加载。有时候，如果自定义层与基础模型的结构不完全匹配，可能会导致加载失败或参数不匹配的问题。检查自定义层的定义和初始化是否与基础模型兼容。
检查点加载方式：确保您正确加载了检查点。在断点续训时，确保检查点包含完整的模型状态，包括优化器的状态。有时候只加载模型权重可能导致问题。您可以尝试完整加载模型和优化器状态。
参数更新方式（LoRA）：如果您使用的是LoRA（Low-Rank Adaptation）方法更新模型参数，确保在断点续训时正确处理这些更新。有时，直接加载基础模型的权重可能会忽略通过LoRA添加的更改。
设备兼容性：确保您在加载和训练模型时使用的设备是一致的。如果在GPU上训练模型然后在CPU上续训，可能会出现兼容性问题。
严格的权重加载：在调用 load_state_dict 时，使用 strict=False 参数会跳过不匹配的层。这可能会导致某些层没有被正确初始化或加载。尝试在不使用 strict=False 的情况下加载权重，看看是否所有层都能正确加载。
检查点路径和格式：确保检查点文件的路径正确，并且文件格式与您的代码兼容。有时文件损坏或不正确的格式也会导致加载失败。
调试和日志记录：增加日志记录来跟踪模型的加载过程，特别是在自定义层和权重加载时。这有助于诊断问题所在。

关于代码的部分，确保以下几点：

确保 CustomWhisperForConditionalGeneration 类正确继承自 WhisperForConditionalGeneration 并正确实现了所需的方法。
在断点续训时，尝试先加载整个模型的检查点（包括优化器状态），然后再从该检查点开始训练，而不是先加载基础模型的权重然后再继续训练。
检查 PeftModel.from_pretrained 方法的实现，确保它能够正确处理自定义层和权重。

如果问题仍然存在，建议提供更详细的日志或错误消息，以便更准确地诊断问题所在。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

安装包损坏重下？镜像支持断点续传
2026-01-02 10:08

老光私享的博客面对大模型下载易中断、环境配置复杂的问题，预置环境的可启动镜像结合断点续传技术提供了一套高效解决方案。以VoxCPM-1.5-TTS为例，用户无需手动配置依赖，下载支持续传，启动即用，显著降低AI部署门槛，提升弱网...
PyTorch-CUDA-v2.7镜像训练Whisper模型可行性验证
2025-12-29 20:32

BIG-HO的博客验证PyTorch-CUDA-v2.7镜像在GPU环境下训练Whisper模型的稳定性与效率，涵盖环境配置、混合精度训练、显存优化及多卡支持等关键环节。实测表明该方案可实现高效、可复现的语音模型训练，显著降低环境配置成本，适合...
LLM带你转型大语言模型算法工程师
2025-07-11 16:53

AI大模型-海文的博客随着大型语言模型（LLM, Large Language Models）在自然语言处理（NLP）领域的不断进步，越来越多的开发者对这一领域产生了浓厚的兴趣。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，...
ms-swift重磅更新：300+多模态大模型全链路训练部署支持
2026-01-01 08:37

澾慟的博客 ms-swift框架实现300+多模态大模型的端到端训练与部署，统一数据、训练、量化和推理流程。通过模块化设计原生支持图文音多模态任务，结合QLoRA、DPO、ZeRO等技术降低资源消耗，适配多种硬件平台，显著提升开发效率。
基于ModelScope打造本地AI模型加速下载方案
2024-11-10 20:36

今天也想MK代码的博客经常需要科学上网模型版本更新及时Hugging Face镜像 (https://hf-mirror.com/)提供了一定的加速服务存在连接超时问题稳定性有待提高阿里开源的国内模型平台下载速度快但对Swift等语言支持不足。
Buzz模型下载加速：解决GitHub资源访问慢的问题
2025-09-11 01:01

侯滔武Dark的博客作为一款基于OpenAI Whisper的本地音频转录与翻译工具，Buzz的核心功能依赖于大型语言模型文件。这些模型文件通常托管在GitHub等国外平台，国内用户常常面临下载速度慢、频繁中断甚至完全无法下载的问题。本文将详细...
利用Whisper打造智能AI人工智能语音助手
2025-06-12 03:37

AI大模型应用之禅的博客 Whisper凭借其强大的语音识别能力和多语言支持，为开发智能语音助手提供了有力的工具。我们将探讨从Whisper的基本原理到实际应用的全过程，包括核心算法、代码实现、项目实战等方面，帮助读者掌握利用Whisper构建...
一文彻底搞懂大模型微调
2025-07-08 18:51

程序员超超的博客 1.什么是大模型微调大模型微调（Fine-tuning）是指基于预训练的大型语言模型（如GPT、BERT等），通过特定领域或任务的数据进行二次训练，使模型适应具体应用场景的技术过程。与从零开始训练相比，微调能够以较低成本...
网盘直链下载助手配合Aria2提升IndexTTS2模型下载速度
2026-01-04 05:55

南城游子的博客通过网盘直链下载助手提取真实下载地址，结合Aria2多线程并发下载，可将IndexTTS2等大模型的下载速度提升10...该方法突破浏览器限速，支持断点续传，适用于各类AI模型部署场景，显著提升本地或服务器环境下的下载效率。
开源神器！支持300+多模态大模型训练与推理，GPU加速就在这个镜像中
2026-01-01 07:42

一一MIO一一的博客 ms-swift 是一个支持600+文本与300+多模态模型的开源框架，提供从训练到部署的一站式...支持LoRA、QLoRA、4bit量化及vLLM等高性能推理后端，单卡可微调7B模型，企业级功能如断点续训、安全校验、私有化部署一应俱全。
界面化操作大模型训练！无需写代码完成SFT/DPO全流程，新手友好
2026-01-01 10:28

魑魅丶小鬼的博客 ms-swift 是魔搭社区推出的一站式大模型训练框架，通过可视化界面实现无需编程的 SFT、DPO 等全流程操作。支持多模态模型、主流微调技术与国产硬件，集成训练、评测、量化和部署能力，显著降低使用门槛，让非专业...
一键下载600+大模型权重！ms-swift镜像全解析，GPU算力需求轻松应对
2026-01-01 07:42

Postroggy的博客 ms-swift提供一站式大模型开发方案，支持600多个纯文本和300多个多模态模型的一键下载与微调，集成LoRA、QLoRA、DPO、GPTQ等主流技术，适配单卡消费级显卡，大幅降低AI开发门槛，实现从训练到部署的全流程自动化。
Python实现本地语音转文字,并且带有唤醒词功能.
2024-05-23 19:39

openwin_top的博客初始化 Whisper 模型：使用 whisper.load_model 加载适当的 Whisper 模型。检测唤醒词： detect_wake_word 函数用于检测转录结果中是否包含唤醒词（如“小宝贝”）。录音和识别：使用一个缓冲区 buffer 来存储...
PyTorch 2.8模型库大全：100+预训练模型开箱即用
2026-01-16 03:30

jetraven12的博客本文介绍了基于星图GPU平台自动化部署PyTorch 2.8镜像的...用户可快速实现如Stable Diffusion文生图、大语言模型文案生成等典型应用，特别适合产品经理或非技术背景人员在星图GPU环境中高效完成AI功能演示与原型验证。
评分Review系统启用：帮助用户选择优质内容
2026-01-01 11:46

叶深深的博客面对日益繁多的开源大模型，ms-swift提供了一站式解决方案，覆盖从微调、评测到部署的全生命周期。通过集成QLoRA、分布式训练与EvalScope评测体系，显著降低使用门槛，让个人和小团队也能高效定制优质模型。配合即将...
Qwen3-Coder移动端开发：480B参数模型的轻量化部署指南
2025-09-12 00:29

陈冉茉的博客你是否还在为移动端无法运行大模型而苦恼？当桌面端享受Qwen3-Coder-480B-A35B-Instruct带来的智能编码体验时，移动端开发者却面临着算力不足、内存受限的双重困境。本文将系统解决这些痛点，通过模型量化、推理优化...
网盘直链下载助手提升IndexTTS2大型文件传输效率
2026-01-04 06:36

青菜炒蛋的博客通过网盘直链下载技术，IndexTTS2等大型AI模型实现了自动化部署与一键启动。该方案绕过传统网盘交互限制，结合脚本实现模型自动检测、下载与加载，显著提升本地化部署效率，尤其适合Docker、边缘设备与远程服务器...
netflix字幕生成：多语种影视内容本地化加速
2026-01-05 05:40

92sweetie的博客 Fun-ASR通过VAD、ITN和热词增强等技术，实现高效多语言字幕自动生成，支持批量处理与本地部署，显著提升影视内容本地化效率，适用于Netflix级全球化分发场景。
【Gradio AI模型部署速成指南】：手把手教你5步搭建惊艳的AI演示界面
2025-12-31 11:53

ByteChat的博客快速掌握Gradio AI模型Demo快速构建方法，5步部署惊艳演示界面。适用于AI项目展示、模型分享与教学场景，无需前端基础，集成Python函数即可生成交互页面。操作简单、响应迅速，支持多种输入输出类型，提升协作效率。...
Python 潮流周刊#45：越来越多的 AI 自动开发框架
2024-04-06 17:20

Python猫的博客 △△请给“Python猫”加星标，以免错过文章推送你好，我是猫哥。...特别提醒：本期周刊赠书 5 本《Python语言及其应用（第2版）》，详情见文末。本文博客版链接（更好的阅读体验）：https://pythoncat.top/posts...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月16日

Whisper模型改造，断点续训出现问题。

1条回答 默认 最新

问题事件

1条回答默认最新