Whisper模型改造，断点续训出现问题。

https://github.com/yeyupiaoling/Whisper-Finetune
我是使用上面这个代码仓的代码，对基座模型Whisper进行修改，主要是添加了其他预训练音频模型与decoder的输入进行融合。

截图是我修改模型结构的代码，是在代码仓的finetune.py里修改的。
现在遇到的问题是：我在断点续训的时候发现loss比之前的检查点（checkpoint）大很多，我觉得是前面的训练是白费的。感觉添加的模块的参数没有被保存或者加载。

下面是我加载训练好模型的代码，我觉得是这部分出现问题的，但我不晓得如何修改。

同时也会报错：

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
恐怖如斯恐怖如斯啊 2024-11-16 14:50
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

从你提供的代码和错误信息来看，你遇到的问题是尝试加载预训练模型权重时，优化器的状态字典与模型的参数组大小不匹配。这可能是由于以下几个原因导致的：

模型结构更改：你在修改模型结构时可能添加或删除了某些层或参数，导致原始预训练模型的权重无法正确加载到你的自定义模型中。确保你的自定义模型结构与预训练模型完全一致。
加载方式不正确：当你使用model.load_state_dict(base_model.state_dict(), strict=False)时，你使用了strict=False参数，这意味着即使存在不匹配的参数也会尝试加载权重。但可能某些参数在你的自定义模型中存在但在预训练模型中不存在，这可能导致问题。

解决方案：

确保模型结构一致：仔细检查你的自定义模型与预训练模型的结构是否完全一致。特别是你添加的自定义层，确保它们的数量和参数与预训练模型相匹配。
正确加载权重：尝试不使用strict=False，而是直接使用model.load_state_dict(base_model.state_dict())来加载权重。如果这导致错误，那么确实可能存在结构不一致的问题。在这种情况下，你可能需要手动调整你的模型结构以匹配预训练模型。
检查优化器：错误信息中提到优化器的状态字典与模型的参数组不匹配。确保你在创建优化器时使用的模型参数与加载权重的模型参数是一致的。如果你在创建优化器后修改了模型结构，那么需要重新创建优化器以匹配新的模型结构。
断点续训问题：如果你在断点续训时遇到问题，确保你使用的检查点与你当前的模型结构是一致的。如果不一致，你可能需要重新训练或使用与检查点匹配的模型结构。

针对你的代码问题，建议在修改模型结构后重新创建优化器并保存其状态。这样可以确保在断点续训时能够正确加载优化器的状态。此外，仔细检查你的自定义模型与预训练模型的差异，确保它们完全一致以避免加载权重时出现问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

安装包损坏重下？镜像支持断点续传
2026-01-02 10:08

老光私享的博客面对大模型下载易中断、环境配置复杂的问题，预置环境的可启动镜像结合断点续传技术提供了一套高效解决方案。以VoxCPM-1.5-TTS为例，用户无需手动配置依赖，下载支持续传，启动即用，显著降低AI部署门槛，提升弱网...
PyTorch-CUDA-v2.7镜像训练Whisper模型可行性验证
2025-12-29 20:32

BIG-HO的博客验证PyTorch-CUDA-v2.7镜像在GPU环境下训练Whisper模型的稳定性与效率，涵盖环境配置、混合精度训练、显存优化及多卡支持等关键环节。实测表明该方案可实现高效、可复现的语音模型训练，显著降低环境配置成本，适合...
LLM带你转型大语言模型算法工程师
2025-07-11 16:53

AI大模型-海文的博客随着大型语言模型（LLM, Large Language Models）在自然语言处理（NLP）领域的不断进步，越来越多的开发者对这一领域产生了浓厚的兴趣。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，...
ms-swift重磅更新：300+多模态大模型全链路训练部署支持
2026-01-01 08:37

澾慟的博客 ms-swift框架实现300+多模态大模型的端到端训练与部署，统一数据、训练、量化和推理流程。通过模块化设计原生支持图文音多模态任务，结合QLoRA、DPO、ZeRO等技术降低资源消耗，适配多种硬件平台，显著提升开发效率。
基于ModelScope打造本地AI模型加速下载方案
2024-11-10 20:36

今天也想MK代码的博客经常需要科学上网模型版本更新及时Hugging Face镜像 (https://hf-mirror.com/)提供了一定的加速服务存在连接超时问题稳定性有待提高阿里开源的国内模型平台下载速度快但对Swift等语言支持不足。
Buzz模型下载加速：解决GitHub资源访问慢的问题
2025-09-11 01:01

侯滔武Dark的博客作为一款基于OpenAI Whisper的本地音频转录与翻译工具，Buzz的核心功能依赖于大型语言模型文件。这些模型文件通常托管在GitHub等国外平台，国内用户常常面临下载速度慢、频繁中断甚至完全无法下载的问题。本文将详细...
利用Whisper打造智能AI人工智能语音助手
2025-06-12 03:37

AI大模型应用之禅的博客 Whisper凭借其强大的语音识别能力和多语言支持，为开发智能语音助手提供了有力的工具。我们将探讨从Whisper的基本原理到实际应用的全过程，包括核心算法、代码实现、项目实战等方面，帮助读者掌握利用Whisper构建...
一文彻底搞懂大模型微调
2025-07-08 18:51

程序员超超的博客 1.什么是大模型微调大模型微调（Fine-tuning）是指基于预训练的大型语言模型（如GPT、BERT等），通过特定领域或任务的数据进行二次训练，使模型适应具体应用场景的技术过程。与从零开始训练相比，微调能够以较低成本...
网盘直链下载助手配合Aria2提升IndexTTS2模型下载速度
2026-01-04 05:55

南城游子的博客通过网盘直链下载助手提取真实下载地址，结合Aria2多线程并发下载，可将IndexTTS2等大模型的下载速度提升10...该方法突破浏览器限速，支持断点续传，适用于各类AI模型部署场景，显著提升本地或服务器环境下的下载效率。
开源神器！支持300+多模态大模型训练与推理，GPU加速就在这个镜像中
2026-01-01 07:42

一一MIO一一的博客 ms-swift 是一个支持600+文本与300+多模态模型的开源框架，提供从训练到部署的一站式...支持LoRA、QLoRA、4bit量化及vLLM等高性能推理后端，单卡可微调7B模型，企业级功能如断点续训、安全校验、私有化部署一应俱全。
界面化操作大模型训练！无需写代码完成SFT/DPO全流程，新手友好
2026-01-01 10:28

魑魅丶小鬼的博客 ms-swift 是魔搭社区推出的一站式大模型训练框架，通过可视化界面实现无需编程的 SFT、DPO 等全流程操作。支持多模态模型、主流微调技术与国产硬件，集成训练、评测、量化和部署能力，显著降低使用门槛，让非专业...
一键下载600+大模型权重！ms-swift镜像全解析，GPU算力需求轻松应对
2026-01-01 07:42

Postroggy的博客 ms-swift提供一站式大模型开发方案，支持600多个纯文本和300多个多模态模型的一键下载与微调，集成LoRA、QLoRA、DPO、GPTQ等主流技术，适配单卡消费级显卡，大幅降低AI开发门槛，实现从训练到部署的全流程自动化。
Python实现本地语音转文字,并且带有唤醒词功能.
2024-05-23 19:39

openwin_top的博客初始化 Whisper 模型：使用 whisper.load_model 加载适当的 Whisper 模型。检测唤醒词： detect_wake_word 函数用于检测转录结果中是否包含唤醒词（如“小宝贝”）。录音和识别：使用一个缓冲区 buffer 来存储...
PyTorch 2.8模型库大全：100+预训练模型开箱即用
2026-01-16 03:30

jetraven12的博客本文介绍了基于星图GPU平台自动化部署PyTorch 2.8镜像的...用户可快速实现如Stable Diffusion文生图、大语言模型文案生成等典型应用，特别适合产品经理或非技术背景人员在星图GPU环境中高效完成AI功能演示与原型验证。
评分Review系统启用：帮助用户选择优质内容
2026-01-01 11:46

叶深深的博客面对日益繁多的开源大模型，ms-swift提供了一站式解决方案，覆盖从微调、评测到部署的全生命周期。通过集成QLoRA、分布式训练与EvalScope评测体系，显著降低使用门槛，让个人和小团队也能高效定制优质模型。配合即将...
Qwen3-Coder移动端开发：480B参数模型的轻量化部署指南
2025-09-12 00:29

陈冉茉的博客你是否还在为移动端无法运行大模型而苦恼？当桌面端享受Qwen3-Coder-480B-A35B-Instruct带来的智能编码体验时，移动端开发者却面临着算力不足、内存受限的双重困境。本文将系统解决这些痛点，通过模型量化、推理优化...
网盘直链下载助手提升IndexTTS2大型文件传输效率
2026-01-04 06:36

青菜炒蛋的博客通过网盘直链下载技术，IndexTTS2等大型AI模型实现了自动化部署与一键启动。该方案绕过传统网盘交互限制，结合脚本实现模型自动检测、下载与加载，显著提升本地化部署效率，尤其适合Docker、边缘设备与远程服务器...
netflix字幕生成：多语种影视内容本地化加速
2026-01-05 05:40

92sweetie的博客 Fun-ASR通过VAD、ITN和热词增强等技术，实现高效多语言字幕自动生成，支持批量处理与本地部署，显著提升影视内容本地化效率，适用于Netflix级全球化分发场景。
【Gradio AI模型部署速成指南】：手把手教你5步搭建惊艳的AI演示界面
2025-12-31 11:53

ByteChat的博客快速掌握Gradio AI模型Demo快速构建方法，5步部署惊艳演示界面。适用于AI项目展示、模型分享与教学场景，无需前端基础，集成Python函数即可生成交互页面。操作简单、响应迅速，支持多种输入输出类型，提升协作效率。...
Python 潮流周刊#45：越来越多的 AI 自动开发框架
2024-04-06 17:20

Python猫的博客 △△请给“Python猫”加星标，以免错过文章推送你好，我是猫哥。...特别提醒：本期周刊赠书 5 本《Python语言及其应用（第2版）》，详情见文末。本文博客版链接（更好的阅读体验）：https://pythoncat.top/posts...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月16日

Whisper模型改造，断点续训出现问题。

1条回答 默认 最新

问题事件

1条回答默认最新