神经网络loss下降到一定程度后不下降?

以下是loss变化图，迭代10000次

代码如下
我使用sigmoid作为激活函数，softmax作为输出层激活函数
数据集使用MNIST的手写数字，没有用神经网络模块
loss降到2,3就开始徘徊

from 解析idx import *
import pygame
import random
from time import sleep
from scipy import misc
import imageio
import json
import numpy as np
from numba import jit
pygame.init()
pm=pygame.display.set_mode((2000,750))

#激活函数及导数(dajl/dzjl)
def sigmoid(x):
    #print(x)
    return 1/(1+2.718**(-x/2))
def dsigmoid(x):
    return sigmoid(x)*(1-sigmoid(x))
def tanh(x):
    return 2*sigmoid(2*x)-1
def dtanh(x):
    return 1-tanh(x)*tanh(x)

#输出层激活函数及导数(dajl/dzjl)
def softmax(a):
    c=np.max(a) #求数组中的最大值
    exp=np.exp(a-c)  #指数运算
    sum_exp=np.sum(exp) #指数求和
    y=exp/sum_exp        #softmax函数值
    return y
def softmax_loss(a,y):
    #print(a)
    mi=0
    for i in range(0,len(y)):
        if y[i]==1:
            mi=i
    return -np.log(a[mi]+0.0001)


#dC/dzjl
def dsoftmax_loss(a,y):
    return a-y


#损失函数及导数(dC/dajl)
def variance_loss(a,y):
    return np.sum((a-y)*(a-y))
def dvariance_loss(a,y):
    return 2*(a,y)
class Net():
    def __init__(self,layers,activation_function=sigmoid,d_activation_function=dsigmoid):
        self.activation_function=activation_function
        self.d_activation_function=d_activation_function
        self.learn_cent=0.005                  #最初的学习率设置
        self.learn_cent_decay=1              #学习率衰减率
        self.learn_cent_step=30                   #喂入多少轮min_batch后，更新一次学习率
        self.learn_times=0
        self.layers=layers
        self.b_learn_cent=0.005 #偏置学习率
        self.tot_cost=0
        self.cost_num=0
        self.a=np.zeros([len(self.layers),800])
        self.b=np.random.uniform(-1,1,[len(self.layers),800])
        #self.b=np.zeros([len(self.layers),800])
        self.z=np.zeros([len(self.layers),800])
        self.w=np.random.uniform(-1,1,[len(self.layers),800,800])
        #self.w=np.zeros([len(self.layers),800,800])
        self.tw=np.zeros([len(self.layers),800,800])
        self.tw_num=np.zeros([len(self.layers),800,800])
        self.tb=np.zeros([len(self.layers),800])
        self.tb_num=np.zeros([len(self.layers),800])
        self.cost=10
    def get_cost(self):
        if self.cost_num==0:
            self.cost_num=0.001
        pj_cost=self.tot_cost/self.cost_num
        self.tot_cost=0
        self.cost_num=0
        return pj_cost
    def train(self,msg,right_ans):
        self.learn_times+=1
        if self.learn_times%self.learn_cent_step==0:
            self.learn_cent*=self.learn_cent_decay
        self.a=np.zeros([len(self.layers),800])
        self.z=np.zeros([len(self.layers),800])
        ipt=np.zeros(800)
        i=-1
        for x in msg:
            i+=1
            ipt[i]=x
        self.a[0]=ipt
        
        for i in range(1,len(self.layers)-1):
            self.z[i]=np.dot(self.w[i],self.a[i-1])+self.b[i]
            self.a[i]=self.activation_function(self.z[i])
        i=len(self.layers)-1
        self.z[i]=np.dot(self.w[i],self.a[i-1])+self.b[i]
        self.a[i][0:10]=softmax(self.z[i][0:10])
        #print(self.a[-1][0:11])
        self.cost=0
        #for i in range(0,self.layers[-1]):
            #print(i)
        self.cost=softmax_loss(self.a[-1][0:self.layers[-1]],right_ans[0:self.layers[-1]])
        print(self.cost)
        self.tot_cost+=self.cost
        self.cost_num+=1
        #print(self.a[-1][0])
        file_.write(str(self.cost)+'\n')
        self.BP(right_ans)
        return self.a[-1][0:10]
    def update(self):
        for i in range(0,len(self.layers)):
            for j in range(0,self.layers[i]):
                for k in range(0,self.layers[i-1]):
                    if self.tw_num[i,k,j]!=0:
                        #print(self.tw_num[i,j,k])
                        self.w[i,k,j]+=self.tw[i,k,j]/self.tw_num[i,k,j]
                        self.tw[i,k,j]=0
                        self.tw_num[i,k,j]=0
                        
        for i in range(0,len(self.layers)):
            for j in range(0,self.layers[i]):
                if self.tb_num[i,j]!=0:
                    self.b[i,j]+=self.tb[i,j]/self.tb_num[i,j]
                    self.tb[i,j]=0
                    self.tb_num[i,j]=0
    def BP(self,right_ans):
        delta=np.zeros([len(self.layers),800])
        delta[-1][0:10]=dsoftmax_loss(self.z[-1][0:10],right_ans[0:10])#dC/dzjl
        #print(self.a[-1])
        for i in range(len(self.layers)-2,-1,-1):
            delta[i]=np.dot(self.w[i+1].T,delta[i+1])*self.d_activation_function(self.z[i])
        print(self.learn_times)
        #print(delta)
        
        self.tb-=self.b_learn_cent*delta
        self.tb_num+=1
        for i in range(1,len(self.layers)):
            for j in range(0,self.layers[i]):
                for k in range(0,self.layers[i-1]):
                    self.tw[i,k,j]-=self.learn_cent*delta[i,j]*self.a[i-1,k]
                    #print('three',self.learn_cent,delta[i,j],self.a[i-1,k])
                    self.tw_num[i,k,j]+=1
        #print(self.w[2])
        #sleep(0.3)
        #print(delta)
#print(dir(np))                                    
group=[]
data=decode_idx3_ubyte('train-images-idx3-ubyte/train-images.idx3-ubyte')
number=decode_idx1_ubyte('train-labels-idx1-ubyte/train-labels.idx1-ubyte')
for i in range(0,len(data)):
    if i%3==0:
        group.append([])
    else:
        #imageio.imwrite(str(i)+'.png',data[i])
        group[-1].append([data[i],number[i]])
file_=open('Net_.txt','w+')
q=[]
net=Net([784,16,16,10])
lines=[]
random.shuffle(group)
#print(group)
while 1:
    #print(mkt.dic['money_you_have'])
    c=-1
    for g in group:
        c+=1
        if c%30==0:
            lines.append([c/6,800-net.get_cost()*100])
            pm.fill((255,255,255))
            for l in range(0,len(lines)-1):
                pygame.draw.line(pm,(0,0,0),lines[l],lines[l+1])
            for event in pygame.event.get():
                if event.type==pygame.QUIT:
                    sys.exit()
            pygame.display.flip()
        
        for n in range(0,2):
            p=[]
            for i in g[n][0]:
                for j in i:
                    p.append(sigmoid(j))
            f=np.array([0]*800)
            f[int(g[n][1])]=1
            m=0
            mi=0
            o=net.train(p,f)
            #print(o[1])
            for i in range(0,10):
                #print(o[i])
                if o[i]>m:
                    m=o[i]
                    mi=i
            print(g[n][1],mi)
        net.update()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-kaily 2021-08-11 14:28
关注
self.learn_cent_decay=1 #学习率衰减率
等于1的话，你的学习率真的衰减了吗？

self.learn_cent*=self.learn_cent_decay
学习率不一直都没变吗？

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

BP神经网络loss值下降不到预设的误差是怎么回事 matlab
2023-03-10 20:03

回答 1 已采纳调整模型这样的超参数，训练loss不动可能是你的模型不好。
用BP神经网络进行预测，loss比较小，但预测值跟实际值相差较大，怎么办 keras python 有问必答神经网络
2021-07-19 21:04

回答 1 已采纳首先怀疑过拟合, 减少迭代次数, 像这种非常简单的数据拟合, 完全不需要200这么大的周期, 一般30-50个足够
tensorflow2.x 深度学习使用相同梯度进行梯度下降的两个相同神经网络，得到的结果却不同 tensorflow 深度学习神经网络
2021-03-12 00:07

回答 2 已采纳在上面给的代码的第164行处插入 optimizer = optimizers.Adam(lr=1e-4) 重新初始化optimizer，这样两个模型训练后的测试结果就一样了，望采纳
神经网络训练时loss不下降的问题
2022-06-14 09:14

yzZ_here的博客如何解决神经网络训练时loss不下降的问题？当我们训练一个神经网络模型的时候，我们经常会遇到这样的一个头疼的问题，那就是，神经网络模型的loss值不下降，以致我们无法训练，或者无法得到一个效果较好的模型。导致...
LSTM的loss不断下降，但train和test的准确率始终在0.5左右 tensorflow 机器学习深度学习神经网络自然语言处理
2019-07-19 10:18

回答 3 已采纳 LSTM是用来做文本生成，做垃圾邮件识别似乎没有什么道理。你的loss用的可能是MSE，平方误差对于大的误差的减小比较敏感，但是对于最终的分类没有什么帮助，就导致acc没有什么变化loss一直下降
我利用torch搭建了一个神经网络但是需要神经网络的输出控制在0-1之间训练后发生了梯度消失 python 人工智能神经网络
2021-04-25 02:16

回答 1 已采纳 1. 把loss函数也放出来看看 2. 先把中间的sigmoid改成Relu（或者其他变种），最后一层使用sigmoid
python构建神经网络训练模型的问题？ python 有问必答深度学习神经网络
2021-04-11 17:39

回答 3 已采纳 input_shape=(7787,)这里是不是少了一个参数
梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？
2021-01-17 18:39

woshicver的博客假如说神经网络的梯度下降法和一般计算数学中的“梯度下降法”一样，并且只用到loss函数的一阶偏导数和的话，那从原理上就很难出现@夕小瑶提到的那种在（或者）方向最大，并且在（或者）方向最小的一阶鞍点。...
CNN训练时，为什么每次训练的loss没有持续下降的趋势 cnn pytorch 神经网络
2022-02-07 14:29

回答 2 已采纳你是指每个epoch对不同的数据集还是对同一个数据集训练loss没有下降，这是两回事每个epoch对不同数据集的话，那我无话可说，你开心就好对同一个数据集loss没有下降，那是应为你这才几个epoch
loss函数只增不减人工智能深度学习神经网络
2022-06-01 10:32

回答 3 已采纳训练集的loss在训练过程中迟迟不下降，一般是由这几个方面导致的。 1.模型结构和特征工程存在问题如果一个模型的结构有问题，那么它就很难训练，通常，自己“自主研发”设计的网络结构可能很难适应实际问题
神经网络训练集损失值降为0而且一直保持 python 深度学习神经网络
2022-02-25 12:13

回答 1 已采纳（1）你没有给出模型，数据情况，谁也分析不了（2）训练误差小，测试误差大，这是典型的过拟合（3）损失值降为 0，还是下降很快，接近于 0，这是完全不同的，从问题描述和图中看不出来
神经网络基础—基于梯度下降法实现神经网络
2021-05-20 20:55

山西工科大李楠的博客根据蔡自兴所著的《人工智能原理及应用》的定义：人工神经网络是由大量的人工神经元互相连接，模拟人脑神经系统的结构和功能。主要分为三层：输入层、隐藏层和输出层。输入层是输入我们的样本数据，通过隐藏层的...
语义分割模型训练，发现验证集的loss值震荡，而精度却正常提升，这是怎么回事？？ python 人工智能机器学习深度学习神经网络
2020-03-09 08:35

回答 1 已采纳现象很正常啊，遇到陌生的数据损失肯定会高，loss肯定是在震荡但整体呈下降趋势的
神经网络中的梯度下降与反向传播的关系（大白话，通俗易懂版本）
2019-07-24 16:51

crxk的博客 神经网络 神经网络就是一个”万能的模型+误差修正函数“，每次根据训练得到的结果与预想结果进行误差分析，进而修改权值和阈值，一步一步得到能输出和预想结果一致的模型。举一个例子：比如某厂商生产一种产品，...
人工智能学习——神经网络（matlab+python实现）
2022-04-21 20:54

NIkoeimi的博客文章目录神经网络前言一、神经网络理论知识二、matlab实现神经网络1.引入库2.读入数据三、python实现神经网络1.引入库总结前言此文章仅作为个人学习笔记使用，主要介绍理论以及学习过程，仅供参考！一、神经...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月10日

悬赏问题

¥20 BAPI_PR_CHANGE how to add account assignment information for service line
¥500 火焰左右视图、视差（基于双目相机）
¥100 set_link_state
¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化
¥15 Tableau online 嵌入ppt失败
¥100 支付宝网页转账系统不识别账号
¥15 基于单片机的靶位控制系统
¥15 真我手机蓝牙传输进度消息被关闭了，怎么打开？(关键词-消息通知)
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？

神经网络loss下降到一定程度后不下降?

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新