神经网络cost值不下降的原因

训练一个梯度下降的二分类模型，当神经网络是[n，20，4，1]的cost值是下降收敛的，
但是[n，20，7，5，1]cost值初始为0.69下降到0.64就不会下降了，这是为什么呢？

            贴一下代码：

import numpy as np
import matplotlib.pyplot as plt
import h5py

#参数初始化，将所有w/b都封装在一个dict中
def initialize_parameters(layer_dims):
    parameters = {}
    L = len(layer_dims)

    for i in range(1,L):
        parameters['w'+ str(i)] = np.random.randn(layer_dims[i],layer_dims[i-1])*0.01
        parameters['b'+ str(i)] = np.zeros((layer_dims[i],1))

        assert(parameters['w'+ str(i)]).shape == (layer_dims[i],layer_dims[i-1])
        assert(parameters['b'+ str(i)]).shape == (layer_dims[i],1)

    return parameters


#定义激活函数
def relu(Z):
    A=(Z+abs(Z))/2
    assert(A.shape == Z.shape)
    return A

def sigmoid(Z):
    A=1.0/(1+np.exp(-Z))
    assert(A.shape == Z.shape)
    return A

#向前传播
def forward_propagation(X,parameters):
    #caches存储了每一层计算得到的A，Z值
    caches = {}

    L=len(parameters)//2
    A_prev=X

    for i in range(1,L):
        Z=np.dot(parameters['w'+str(i)],A_prev)+parameters['b'+str(i)]
        A=relu(Z)
        caches['Z'+str(i)]=Z
        caches['A'+str(i)]=A
        #这一层计算得到的A需要保留，下一层计算Z要用
        A_prev=A

    #输出层的激活函数时sigmoid
    Z=np.dot(parameters['w'+str(L)],A_prev)+parameters['b'+str(L)]
    A=sigmoid(Z)

    caches['Z'+str(L)]=Z
    caches['A'+str(L)]=A

    #这里多存一个X是因为反向传播的时候要用到
    caches['A0'] = X

    return A,caches


#计算代价
def cpmpute_cost(A,Y):
    m=Y.shape[1]
    cost=-1/m*np.sum(np.multiply(np.log(A),Y)+np.multiply((1-Y),np.log(1-A)))
    cost=np.squeeze(cost)
    return cost


#relu函数的导数
def relu_back(Z,dA):
    deri = Z

    deri[Z < 0]=0
    deri[Z >=0]=1

    return deri

#反向传播
def back_propagation(Y,caches,parameters):
    #所有的dw和db
    grads={}

    L=len(caches)//2
    m=Y.shape[1]

    #AL其实就是一次迭代得到的预测值
    AL=caches['A'+str(L)]

    #因为sigmoid反向传和relu不同，所以单独处理
    dZ=AL-Y
    dW=np.dot(dZ,caches['A'+str(L-1)].T)/m
    db=np.sum(dZ,axis=1,keepdims=True)/m

    grads['dw'+str(L)]=dW
    grads['db'+str(L)]=db

    for i in reversed(range(1,L)):
        dA=np.dot(parameters['w'+str(i+1)].T,dZ)
        dZ=np.multiply(dA,relu_back(caches['Z'+str(i)],dA))
        dW=1.0/m * np.dot(dZ,caches['A'+str(i-1)].T)
        db=1.0/m * np.sum(dZ,axis=1,keepdims=True)

        grads['dw'+str(i)]=dW
        grads['db'+str(i)]=db

    return grads


#更新参数
def update_parameters(parameters, grads, alphs):
    L = len(parameters)//2
    for l in range(L):
        parameters['w'+str(l+1)] = parameters['w'+str(l+1)] - alphs * grads['dw'+str(l+1)]
        parameters['b'+str(l+1)] = parameters['b'+str(l+1)] - alphs * grads['db'+str(l+1)]
    return parameters


#模型预测
def predict(X,parameters):

    A2,caches=forward_propagation(X,parameters)

    temp=A2.shape[1]
    Y_pred=np.zeros([1,temp])

    for i in range(temp):
        if A2[:,i]>0.5:
            Y_pred[:,i]=1
        else:
            Y_pred[:,i]=0

    return Y_pred

#模型整合
def model(X,Y,layer_dims,iter_times,alphs,print_flag):
    np.random.seed(1)
    parameters=initialize_parameters(layer_dims)
    for i in range(0,iter_times):

        A,caches=forward_propagation(X,parameters)
        cost=cpmpute_cost(A,Y)
        grads=back_propagation(Y,caches,parameters)
        parameters=update_parameters(parameters,grads,alphs)

        if print_flag and i % 100 == 0:
            print('iteration at ',i,' cost :',cost)

    return parameters


n=train_data_finalX.shape[0]
layer_dims=[n,20,7,5,1]
parameters=model(train_data_finalX,train_data_finalY,layer_dims,2500,0.0075,True)

y_pred_train=predict(train_data_finalX,parameters)
print('train acc is ',np.mean(y_pred_train == train_data_finalY)*100,'%')    

y_pred_test=predict(test_data_finalX,parameters)
print('test acc is ',np.mean(y_pred_test == test_data_finalY)*100,'%')

结果类似这样，后面cost值变化很小，在小数点后5位
我试过增加迭代次数和增大学习因子，还是有这个问题

iteration at 0 cost : 0.6932015486338629
iteration at 100 cost : 0.6482987506672847
iteration at 200 cost : 0.6443527436694975
iteration at 300 cost : 0.6439059082659386
iteration at 400 cost : 0.6436651460852033
iteration at 500 cost : 0.6431109804509275

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2018-11-03 15:55
关注
http://blog.sina.com.cn/s/blog_6e32babb0102yjzq.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python BP神经网络两分类反向传播代码问题 python 分类有问必答神经网络
2022-03-17 01:20

回答 2 已采纳反向传播部分计算公式是对的吴恩达深度学习第二次作业_牛客博客带有一个隐藏层的平面数据分类解释一下，就是一个二维平面有两种不同的花色，我
如何将训练好的BP神经网络模型保存并可以在其他py文件中直接调用？ python 有问必答机器学习神经网络
2021-06-09 10:53

回答 2 已采纳这个需要建立字典封装起来
为什么我的神经网络的COST一直起伏，不是持续往0收敛？ python
2019-03-28 11:35

回答 2 已采纳可能是迭代次数不够，神经元数量不够，或者学习率太大
人工智能反向传播算法,神经网络反演算法
2022-10-22 12:50

vvccyyqq的博客反向传播算法被设计为减少公共子表达式的数量而不考虑存储的开销。反向传播避免了重复子表达式的指数爆炸。然而，其他算法可能通过对计算图进行简化来避免更多的子表达式，或者也可能通过重新计算而不是存储这些子...
paddle 卷积神经网络训练时报错InvalidArgumentError: The input tensor X of SumOp must have same shape.. paddle 深度学习神经网络
2022-03-24 03:18

回答 1 已采纳你传入的张量是252，2但需要的是21，2考虑使用reshape把维度变化一下飞桨的框架我没用过，pytorch是这么操作的，你搜一搜类似的改变张量shape的函数
tensorflow训练网络报错Invalid argument tensorflow 人工智能机器学习深度学习神经网络
2019-09-06 17:29

回答 1 已采纳 print(sess.run(cost),feed_dict=feeds_train) 你把数据喂到了外边在cost后加逗号，然后接喂的数据
关于路由协议isis的cost类型网络协议
2023-03-09 19:07

回答 1 已采纳 “Devil组”引证GPT后的撰写：在ISIS协议中，Cost类型表示用于计算最短路径的度量标准。Cost值表示从源节点到目的节点的距离或代价，因此可以用于计算IS-IS的最短路径树。ISIS协议中
神经网络基础—基于梯度下降法实现神经网络
2021-05-20 20:55

山西工科大李楠的博客根据蔡自兴所著的《人工智能原理及应用》的定义：人工神经网络是由大量的人工神经元互相连接，模拟人脑神经系统的结构和功能。主要分为三层：输入层、隐藏层和输出层。输入层是输入我们的样本数据，通过隐藏层的...
softmax不知道哪里写错了，二分类预测的正确率为0.1左右。不知道哪里反了 python 深度学习神经网络
2022-07-27 18:30

回答 1 已采纳很明显你训练的时候标注的和验证时标注的是反的调整一下就可以了 0 看做1 1 看做0 就好
theano 运行报错安装了MingGW依然不行人工智能机器学习神经网络
2019-09-29 16:26

回答 1 已采纳版本不匹配，你安装的编译器是32bit的
做mnist识别时出现错误 AttributeError: module 'keras.api._v2.keras' has no attribute 'train' keras tensorflow 神经网络
2022-09-19 20:31

回答 1 已采纳现在用的是tf2吧，那应该要这样子写tf.keras.optimizers.Adam
人工智能基础入门——神经网络讲解
2021-12-29 15:45

无乎648的博客人工神经网络：大量的神经元以某种连接方式构成的机器学习模型。第一个神经网络：1958年，计算机科学家Rosenblatt提出的Perceptron（感知机） o=σ\sigmaσ(（<w,x>+b）) b是指偏执项 if x>0 σ\sigmaσ=...
关于机器学习梯度下降求 w 和 b 的问题人工智能机器学习深度学习
2020-02-22 14:04

回答 2 已采纳 fit函数里面的while循环里的第一个if语句是想判断当前求得的self.w的精度，如果self.w和b的改变小于precision即认为精度达到要求，退出循环！而第一次while循环时明显
python与人工智能：神经网络和深度学习，卷积神经网络识别手写文字
2022-10-10 18:50

迷途君的博客简单介绍了，神经网络和卷积神经网络模型以及一些应用
神经网络、人工智能
2019-11-21 16:58

喵喵@香菜的博客 神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法，同时也...　神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的...
没有解决我的问题, 去提问

悬赏问题

¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）
¥15 AIC3204的示例代码有吗，想用AIC3204测量血氧，找不到相关的代码。

神经网络cost值不下降的原因

1条回答 默认 最新

悬赏问题

1条回答默认最新