deeplab v3+训练loss不收敛问题

我使用的是官网的代码https://github.com/tensorflow/models/tree/master/research/deeplab 复现deeplab v3+；
训练数据就是标准的Pascal voc2012。训练之前已经按照官网上的说法，通过运行脚本download_and_convert_voc2012.sh下载voc2012数据、并将label转换为单通道、并将数据转换为需要的tfrecord格式；
训练模型也是从提供的model_zoo下载的https://github.com/tensorflow/models/blob/master/research/deeplab/g3doc/model_zoo.md；
学习率保持默认，即learning rate=0.0001；
Linux Ubuntu 16.04；TensorFlow1.6.0 installed from Anaconda；CUDA9.0/cudnn7.0.5；GeForce GTX 1080 Ti；
具体训练代码是：

python deeplab/train.py \
    --logtostderr \
    --training_number_of_steps=30000 \
    --train_split="train" \
    --model_variant="xception_65" \
    --atrous_rates=6 \
    --atrous_rates=12 \
    --atrous_rates=18 \
    --output_stride=16 \
    --decoder_output_stride=4 \
    --train_crop_size=513 \
    --train_crop_size=513 \
    --train_batch_size=2 \
    --dataset="pascal_voc_seg" \
    --fine_tune_batch_norm = False \
    --tf_initial_checkpoint="{下载的checkpoint路径}/deeplabv3_pascal_train_aug/model.ckpt.index" \
    --train_logdir="{要写入路径}/exp/train_on_train_set/train" \
    --dataset_dir="{数据集路径}/pascal_voc_seg/tfrecord"

然而loss一直不收敛：
最终出现nan值错误
如果训练的次数少一点，验证一下结果，发现miou只有零点零几：
一直没有找到原因，感觉步骤没有问题，也参照过各种博客，大家似乎都没有出现这种情况，希望大佬们可以帮忙

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
米虫 Ian 2018-12-26 09:22
关注
解决了。模型导入错误，应该导入model.ckpt而不是model.ckpt.index。唉我居然一直没发现真是傻了

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

yolov5验证loss比训练loss大很多 python 深度学习目标检测
2022-06-22 10:51

回答 3 已采纳不是，你这个是class_loss一塌糊涂导致你的pr和map曲线也不行，但是你的obj和box是正常的，也就是说网络有找到目标，只不过目标在分类的时候分错了。首先考虑的应该是你的数据集情况。1.你的
loss函数只增不减人工智能深度学习神经网络
2022-06-01 10:32

回答 3 已采纳训练集的loss在训练过程中迟迟不下降，一般是由这几个方面导致的。 1.模型结构和特征工程存在问题如果一个模型的结构有问题，那么它就很难训练，通常，自己“自主研发”设计的网络结构可能很难适应实际问题
v3+element-plus typescript vue.js
2022-09-06 17:56

回答 1 已采纳 element-plus 没有 FormRules 这个项。type 里没有
耕地单目标语义分割实践——Deeplab3+语义分割
2023-08-31 14:54

doll ～CJ的博客本文主要复现了以mobileNetv2为主干特征提取网络的Deeplab3+语义分割模型。同时，对语义分割网络模型进行了部分文献整理，针对PSP块、逆残差块等网络结构进行了再学习。
2288V3内存条问题缓存负载均衡
2023-03-26 20:35

回答 3 已采纳参考GPT和自己的思路：根据你提供的情况，可能存在以下几个问题导致无法正常启动或者内存没有增加：内存条可能不兼容：不同的内存条有不同的规格和型号，如果两种不同的内存条混在一起使用可能会导致不兼容，从
RH2288 V3华为服务器在WebBios界面检测不到硬盘，无法RAID 华为服务器
2023-03-02 23:00

回答 1 已采纳问题已经解决，在官网下载该服务器的软件和驱动，使用iBMC更新硬盘背板的版本就可以解决
V3为什么不能算出结果呢? c语言
2022-01-31 09:59

回答 1 已采纳 printf("v3=(％d,%d)",x,y);
重新梳理DeepFaceLab（DeepFake）最近动态：简要且全面的信息
2023-08-15 23:06

若苗瞬的博客 DeepFaceLab发展了很久了，出现了ICE版本，出现了各种辅助工具，也有了中文讨论的地方。
为什么v3不等于（7,11）呢 c语言
2022-01-31 10:47

回答 2 已采纳一点细节上的错误——格式说明问题如图，红框中%x1%y1%x2%y2改为%d%d%d%d就行了常用的几个格式说明：int整型数据格式说明为 %dfloat单精度浮点型为 %fdouble双精度浮点型
vue-echarts导入没问题但是模块找不到 echarts vue.js
2022-04-09 14:20

回答 1 已采纳我看你的项目代码是 Vue2 的，但是警告中却提到了 Vue3 的API，你看下是否 echarts 版本太新了，找一个版本较低的安装一下
为什么在去重问题中set不是全局变量？ c++ 算法
2022-09-27 17:09

回答 2 已采纳 set如果是公用的，那你取出了1就没了，再也没法取1了，那还排列组合啥要不要全局变量是看你到底要实现什么目标的如果你单纯的就是要把所有重复的去掉，当然可以是全局变量问题是那样也根本不需要递归了呀
Auto Seg-Loss: 自动损失函数设计
2022-06-29 11:40

小白学视觉的博客点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达作者丨ILOAH@知乎来源丨https://zhuanlan.zhihu.com/p/266102401编辑丨极市平台导读本文所提出的Auto Seg-Loss的设计目的在于降低为了某个...
运行不输出，是哪里出问题了啊for循环吗 c++
2021-08-05 22:08

回答 1 已采纳 v什么都没做，能输出个啥呢，第一个for后面加上 v.push_back(v1); v.push_back(v2); v.push_back(v3); v.push_back(v4);
MATLAB算法实战应用案例精讲-【人工智能】语义分割(附实战应用案例及代码)
2022-12-31 11:06

林聪木的博客语义分割，也称为像素级分类问题，其输出和输入分辨率相同（如题图中，左边为2048x1024分辨率的Cityscapes街景图像，输入模型，得到右边同样分辨率的语义图）。由此，语义分割具有两大需求，即高分辨率和高层语义，...
MATLAB算法实战应用案例精讲-【人工智能】语义分割（最终篇）(附实战应用案例及代码实现)
2023-01-02 17:44

林聪木的博客为了解决这个问题，已经提出了各种更先进的基于FCN的方法，包括SegNet, DeepLab-CRF, 和 Dilated Convolutions。 3-弱监督语义分割语义分割中的大多数相关方法都依赖于大量带有像素级分割遮罩的图像。然而，手工...
没有解决我的问题, 去提问

悬赏问题

¥20 sub地址DHCP问题
¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大

deeplab v3+训练loss不收敛问题

1条回答 默认 最新

悬赏问题

1条回答默认最新