训练的时候LOSS始终不会下降

最近刚接触深度学习，想要自己做一下模型训练，使用NIN网络训练一个手写字符的数据集，写完后不知道为什么LOSS一直掉不下去，可以说是根本没有下降，NIN网络以及batchsize和lr都是按照李沐花书参数来的，死活找不到问题所在，恳请各位指条明路

训练代码如下


import torchvision
import torch.nn as nn
from torch.utils.data import DataLoader
from model1 import *

from torch.nn import CrossEntropyLoss
from torch.utils.tensorboard import SummaryWriter
from torch import argmax
transform = torchvision.transforms.Compose([torchvision.transforms.Resize((224,224)),
                                            torchvision.transforms.ToTensor()]
                                           )

train_dataset = torchvision.datasets.MNIST("MNI_datasets",train=True,transform=transform,download=True)
test_dataset = torchvision.datasets.MNIST("MNI_datasets",train=False,transform=transform,download=True)

train_dataload = DataLoader(train_dataset,batch_size=32)
test_dataload = DataLoader(test_dataset,batch_size=32)

test_len = len(test_dataset)
train_len = len(train_dataset)

writer = SummaryWriter("logs")
nin = Nin()
nin = nin.cuda()
loss_fn = CrossEntropyLoss()
loss_fn = loss_fn.cuda()
lr = 0.1
opti = torch.optim.SGD(nin.parameters(),lr = lr)

train_step = 0
test_step = 0
epoch = 10
#开始训练
nin.train()
for i in range(epoch):
    print("------第{}轮训练开始------".format(i+1))
    train_total_loss = 0.0
    test_total_loss = 0.0
    total_accuracy = 0.0
    for data in train_dataload:
        imgs,targets = data
        imgs = imgs.cuda()
        targets = targets.cuda()
        output = nin(imgs)
        loss = loss_fn(output,targets)
        opti.zero_grad()
        loss.backward()
        opti.step()
        train_step+=1
        train_total_loss = train_total_loss+loss
        
        if train_step%100==0:
            #writer.add_scalar("test_line",loss.item(),train_step)
            print("训练次数为{}，训练损失为{}".format(train_step,loss))
    #测试集
    with torch.no_grad():
        for data in test_dataload:
            imgs, targets = data
            imgs = imgs.cuda()
            targets = targets.cuda()
            output = nin(imgs)
            loss = loss_fn(output,targets)
            test_total_loss = loss.item()+test_total_loss
            accuracy = (output.argmax(1)==targets).sum()
            
            total_accuracy = accuracy+total_accuracy
            test_step+=1
            if test_step%100==0:
                #writer.add_scalar("test_line",loss.item(),test_step)
                print("测试次数为{},测试损失为{}".format(test_step,loss))
    print("本轮训练总损失为{}".format(train_total_loss))
    print("本轮测试总损失为{}".format(test_total_loss))
    print("本轮测试准确率为{}".format(total_accuracy/test_len))

    #torch.save(nin,"nin_{}.pth".format(i+1))

#writer.close()

网络模型如下

import torch.nn as nn
import torch
from torch.nn import Conv2d,ReLU,MaxPool2d,Dropout,AdaptiveMaxPool2d,Flatten

def Nin_block(in_channels,out_channels,kernel_size,stride,padding):
    return nn.Sequential(
        Conv2d(in_channels,out_channels,kernel_size,padding=padding,stride=stride),
        ReLU(),
        Conv2d(out_channels,out_channels,kernel_size=1),
        ReLU(),
        Conv2d(out_channels,out_channels,kernel_size=1),
        ReLU()
    )

class Nin(nn.Module):
    def __init__(self):
        super(Nin,self).__init__()
        self.model = nn.Sequential(
            Nin_block(1,96,11,4,0),
            MaxPool2d(3,2),
            Nin_block(96,256,5,1,2),
            MaxPool2d(3,2),
            Nin_block(256,384,3,1,1),
            MaxPool2d(3,2),
            Dropout(0.5),
            Nin_block(384,10,3,1,1),
            AdaptiveMaxPool2d((1,1)),
            Flatten()
        )

    def forward(self,input):
        output = self.model(input)
        return output

if __name__ =='__main__':
    nin = Nin()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Zouia Gail(修行中) 2023-05-06 22:16
关注
可以适当增加层数，看着你这里只有一种，可以尝试添加全链接层

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

yolov5验证loss比训练loss大很多 python 深度学习目标检测
2022-06-22 10:51

回答 3 已采纳不是，你这个是class_loss一塌糊涂导致你的pr和map曲线也不行，但是你的obj和box是正常的，也就是说网络有找到目标，只不过目标在分类的时候分错了。首先考虑的应该是你的数据集情况。1.你的
CNN训练时，为什么每次训练的loss没有持续下降的趋势 cnn pytorch 神经网络
2022-02-07 14:29

回答 2 已采纳你是指每个epoch对不同的数据集还是对同一个数据集训练loss没有下降，这是两回事每个epoch对不同数据集的话，那我无话可说，你开心就好对同一个数据集loss没有下降，那是应为你这才几个epoch
yolov5训练结果只有loss为0 python 机器学习深度学习
2022-10-13 20:50

回答 1 已采纳单个类别的时候，train里面要将single-cls设置为true，或者参数里面加上--single-cls
解决Pytorch训练过程中loss不下降的问题
2020-09-18 04:53

今天小编就为大家分享一篇解决Pytorch训练过程中loss不下降的问题，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
keras训练二分类模型acc一直0.5 loss一直是0.69怎么办? tensorflow 人工智能深度学习
2021-03-18 16:11

回答 2 已采纳帮你改了下代码，路径你自己再改改，验证集acc能跑到0.8以上了。 import os import tensorflow as tf from tensorflow.keras import S
训练时，loss一直变大是哪里错了？ tensorflow 机器学习
2019-04-07 11:32

回答 1 已采纳是一开始就向负无穷变大，还是训练一段时间后变大，前者可能是你的训练集和验证集的数据不匹配，或者归一化量纲不对。或者模型错误。或者参数问题，比如self.lr2这个学习率设置的多少。后者就是过拟合了
使用Keras编写的LSTM，训练时出现loss: nan - val_loss: nan，该如何调整？ keras lstm 有问必答深度学习
2022-05-03 18:40

回答 2 已采纳原数据第一列是时间形式的20220503这种，在读数据之后进行下面操作，你的数据是简单的1 2 34这种，数据可能在处理过程丢失或者变成nan了，你可以一步步看看每次处理后当前的数据现在是什么格式 d
【Pytorch】模型训练的时候遇到了训练loss不下降的问题
2023-08-15 01:35

石头inDistance的博客记录自己解决模型训练输出始终一致，loss不下降的问题
YOLOV5-6.0obj_loss上升 python 人工智能深度学习
2022-04-07 22:15

回答 1 已采纳你用的预训练模型还是直接初始化的模型？看样子只能说你的数据集整体的loss比你用的预训练模型或者初始化模型高而已，整体是正常的就行
LSTM的loss不断下降，但train和test的准确率始终在0.5左右 tensorflow 机器学习深度学习神经网络自然语言处理
2019-07-19 10:18

回答 3 已采纳 LSTM是用来做文本生成，做垃圾邮件识别似乎没有什么道理。你的loss用的可能是MSE，平方误差对于大的误差的减小比较敏感，但是对于最终的分类没有什么帮助，就导致acc没有什么变化loss一直下降
语义分割模型训练，发现验证集的loss值震荡，而精度却正常提升，这是怎么回事？？ python 人工智能机器学习深度学习神经网络
2020-03-09 08:35

回答 1 已采纳现象很正常啊，遇到陌生的数据损失肯定会高，loss肯定是在震荡但整体呈下降趋势的
训练loss不下降原因
2023-11-08 17:21

牛肉胡辣汤的博客通过合适的数据预处理、模型复杂度控制、学习率调整和数据集规模扩增等方法，我们可以逐步解决训练loss不下降的问题，提高模型的性能。在构建深度卷积神经网络时，我们可以通过调整模型的层数、卷积核数量、全连接层...
人工智能猫狗识别程序，模板已训练完成，进行识别的时候无法找到目标文件夹，但是文件夹地址是对的 keras python 人工智能
2022-11-03 19:01

回答 1 已采纳这里少了一个斜杠
CNN训练过程Loss不下降，并且准确率不变。
2023-09-06 14:36

m0_74148969的博客不止一次出现这种情况，很多情况可能导致该现象出现，可能是学习率，梯度下降出现问题。这次是因为数据数值过大，加入BatchNorm层后解决该问题。
一文看懂训练集loss与测试集loss关系
2021-09-07 09:38

LN烟雨缥缈的博客 train loss 不断下降，test loss不断下降，说明网络仍在学习; train loss 不断下降，test loss趋于不变，说明网络过拟合;（max pool或者正则化） train loss 趋于不变，test loss不断下降，说明数据集100%有问题; ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月6日

悬赏问题

¥15 c语言怎么用printf（“\b \b”）与getch（）实现黑框里写入与删除？
¥20 怎么用dlib库的算法识别小麦病虫害
¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
¥15 java写代码遇到问题，求帮助
¥15 uniapp uview http 如何实现统一的请求异常信息提示？
¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看
¥15 关于#Java#的问题，如何解决？

训练的时候LOSS始终不会下降

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新