解冻主干时的loss曲线异常

下图所示，第51个epoch的时候解冻主干，loss曲线出现突然上升，然后稳定下降的情况，这是什么原因导致的呢？是主干参与损失函数，导致损失变大了吗？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

深度学习的图像分类项目在制造业场景下的数据需求量估算及实现方案（数据收集是The more the better 吗？）
2025-07-20 23:06

shiter的博客要求结论具体，并给出原理和参考文献以及github开源库的链接或需要多参考arxiv 上面的论文并给出链接在制造业质量控制和异常检测场景中，基于深度学习的图像分类模型已成为提升检测效率和准确性的核心工具。
多语言手写识别中的跨语言迁移学习：Manus AI 的预训练范式
2025-06-10 07:36

观熵的博客面对多语种手写识别场景中语言资源分布严重不均的现状，Manus AI 构建了一套以跨语言迁移为核心的预训练范式，通过在高资源语种上预训练共享视觉-语言编码器，并采用轻量级语言适配模块实现低资源语种的快速泛化。...
第35节：微调框架 PyTorch 从入门到精通【第六部分：案例实战篇】
2026-04-17 08:28

Thomas.Sir的博客 4)采用冻结主干网络、仅训练新分类层的微调策略；5)设置分层学习率优化器。该案例演示了完整的迁移学习流程，特别适合数据量有限的医疗影像分析场景，通过预训练模型提取通用特征并结合领域特定微调，可显著提升模型...
第36节：微调框架 PyTorch 从入门到精通【第七部分：常见问题与调试指南】
2026-04-17 08:42

Thomas.Sir的博客主要内容包括：损失函数问题诊断：提供了判断损失不下降、梯度消失/爆炸的方法，包括检查损失曲线变化、梯度范数统计等，并给出了不同场景的模拟分析。梯度问题解决方案：梯度消失：建议使用LeakyReLU、BatchNorm...
人工智能|大模型——训练——大模型微调全栈指南：从Transformer架构、10+种PEFT原理、流程与实战（全网最详细）
2026-04-10 11:21

博士僧小星的博客本文是一份面向工程落地的大模型参数高效微调（PEFT）深度技术指南，严格依据 8 篇权威技术文档（知乎专栏、CSDN 博客、阿里云文章、AI全书等）的原始事实提炼而成。全文覆盖：① 大模型“预训练→微调”两阶段范式...
训练loss不下降？cv_resnet18_ocr-detection调参技巧详解
2026-01-16 01:10

一一MIO一一的博客本文介绍了基于星图GPU平台自动化部署cv_resnet18_ocr-detection OCR文字检测模型构建by科哥镜像的方法，该平台支持高效实现模型微调与AI应用开发。通过优化学习率、数据增强与梯度累积等策略，可显著提升OCR文字...
HunyuanVideo: A Systematic Framework For Large Video Generative Models
2024-12-16 09:11

AI浩的博客 Loss = L 1 + 0.1 L l p i p s + 0.05 L a d v + 1 0 − 6 L k l \text{Loss} = L_{1} + 0.1L_{lpips} + 0.05L_{adv} + 10^{-6}L_{kl} Loss=L1+0.1Llpips+0.05Ladv+10−6Lkl 在训练过程中，我们采用课程...
使用Yolov4训练自己的数据集(20240415版）
2024-04-15 23:55

冰万森的博客划分数据集项目的主干结构如上图，数据集的命名其实已经很清楚了，就是Annotations文件夹放标签，ImageSets文件夹放图片，如果是自己找的标注的图片，标注完成后最好一个Annotations文件夹放标签，一个ImageSets...
Fast.ai用户迁移到TensorFlow的成本评估
2025-12-27 18:45

LikYu-餘力的博客对于从Fast.ai转向TensorFlow的团队，迁移成本主要体现在API范式转换、数据管道重构和工程思维升级。尽管代码量增加，但换来的是可维护性、部署能力和分布式训练的全面提升。真正的价值不在于能否复现模型，而在于...
**基于Colab的高效Python深度学习训练流程优化实践：从数据加载到模型部署全流程实战**在当前AI开发中，Goog
2026-04-13 12:16

A20250FSAF的博客 layer.trainable = False model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy']) ``` > ⚠️ 注意：训练初期建议冻结主干网络，避免梯度爆炸；后期再解冻微调。 --- ### 三、...
智能 Agent 迁移学习实战：策略迁移、知识蒸馏与跨任务泛化机制全流程解析
2025-05-03 09:32

观熵的博客在复杂多变的任务环境中，智能 Agent 面临训练成本高、样本效率低与策略泛化能力弱等挑战。迁移学习为解决此类问题提供有效路径，能够通过知识重用、策略蒸馏、跨环境适配等方式加速训练、提升稳定性与扩展能力。...
train.py 深度解读（训练参数解读）
2023-07-29 20:48

奋土的博客 train.py完成了语义分割模型的训练过程，支持分布式训练、混合精度训练、多卡同步BN等功能，...在训练过程中，会根据指定的训练阶段对模型的参数进行冻结和解冻，从而满足机器性能不足的情况下，逐步训练更复杂的模型。
冻结训练+断点恢复
2022-10-17 17:04

勤奋的小懒猪的博客再比如，一个非常常见的情况，假如一开始设置了100个epoch，结果模型训练结束时，Loss还呈现下降的趋势，也就是模型还没有收敛，这种现象有可能就是epoch设置小了，所以可以把第100个epoch训练得到的权值文件当做...
YOLOv11官方代码库与预训练模型下载：介绍Ultralytics官方GitHub及模型权重（yolov11n.pt, yolov11s.pt等）
2025-06-21 23:32

Clf丶忆笙的博客无论你是刚入门的AI新手，还是经验丰富的深度学习工程师，都能在这里找到适合自己的工具和资源。仓库中的代码结构清晰，文档完善，更新频繁，社区活跃。Ultralytics团队定期发布新版本，修复已知问题，添加新功能，...
关于神经网络的理解
2022-08-10 21:15

黑夜的孤独侠的博客 9、断电恢复的应用 1、收敛性应用，当模型文件训练结束时，模型依旧没有收敛性，也就是 loss的值还依旧在下降，那么我们就可以把，模型训练结束的权重文件当作重新开始训练的初始权重文件，这一过程可以称为断点...
《人工智能专栏》必读150篇 | 专栏介绍 & 专栏目录 & Python与PyTorch | 机器与深度学习 | 目标检测 | YOLOv5及改进 | YOLOv8及改进 | 关键知识点 | 工具
2023-12-25 14:19

小酒馆燃着灯的博客《人工智能专栏》专栏介绍 & 专栏目录 & Python与Python | 机器学习 | 深度学习 | 目标检测 | YOLOv5及其改进 | YOLOv8及其改进 | 关键知识点 | 各种工具教程
Day 45 预训练模型
2025-12-20 21:33

haiyu_y的博客无需人工标注，通过 pretext task 学习表征，适合标签稀缺场景。适用于更大图像（如 224x224），CIFAR-10 往往需要。这些特征可以迁移到新的任务中继续微调，从而提升性能。会显著影响收敛速度与最终效果。的数据集...
Day 50 预训练模型CBAM注意力
2025-12-25 17:33

祝余Eleanor的博客先复用下数据预处理+定义cbam的代码，然后看下resnet内部的结构是什么，这决定我们如何插入模块先通过预训练resnet18来查看模型结构经典的 ResNet-18 模型可以将其看作一个处理流水线，图像数据从一端进去，分类结果...
Day 50 预训练模型 + CBAM 模块
2025-11-22 08:24

Gitpchy的博客这里在解冻主干卷积层采用的是先解冻高层，后解冻底层。为什么是先解冻的是高层（layer3,layer4），而不是底层（layer1,layer2）呢？破坏预训练特征：底层随机调整会破坏预训练学到的边缘检测器等基础特征梯度不...
python学习DAY50打卡
2025-08-25 22:28

星仔编程的博客在更理想的情况下，如果能让 attention 图的值都趋近于 sigmoid 函数的反函数中对应...同时，`CBAM`模块和`fc`层保持解冻状态。我们知道，加载预训练模型的时候，需要加载好预训练的模型架构，然后加载预训练的权重。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月26日

解冻主干时的loss曲线异常

0条回答 默认 最新

问题事件

0条回答默认最新