神经网络的M均方差向1收敛而不是向0收敛是什么原因？

  with tf.name_scope('input_layer'): #输出层。将输出层权重、偏置、净输入放在一起
        with tf.name_scope('weight_i'):
            Weights0 = tf.Variable(tf.random_normal([21, 8]))          
            variable_summaries(Weights0)
        with tf.name_scope('bias_i'): 
            biases0 = tf.Variable(tf.zeros([1, 8]) + 0.1)
            variable_summaries(biases0)
        with tf.name_scope('Wx_plus_b_i'):
            Wx_plus_b00 = tf.matmul(X, Weights0) + biases0
            variable_summaries(Wx_plus_b00)
    l00 = tf.nn.sigmoid(Wx_plus_b00)

    with tf.name_scope('output_layer'): 
        with tf.name_scope('weight_o'):
            Weights1 = tf.Variable(tf.random_normal([8, 1]))
            variable_summaries(Weights1)
        with tf.name_scope('bias_o'): 
            biases1 = tf.Variable(tf.zeros([1, 1]) + 0.1)
            variable_summaries(biases1)
        with tf.name_scope('Wx_plus_b_o'):
            Wx_plus_b1 = tf.matmul(l00, Weights1) + biases1
            variable_summaries(Wx_plus_b1)
    prediction = tf.nn.sigmoid(Wx_plus_b1)

这是我的网络结构

cost=tf.reduce_mean(tf.square(pred - ys))

optm=tf.train.GradientDescentOptimizer(0.01).minimize(cost)

这是我的均方差函数和梯度下降函数

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
.LAL. C/C++领域新星创作者 2023-01-05 07:42
关注
神经网络不收敛的原因
没有对数据进行归一化
忘记检查输入和输出
没有对数据进行预处理
没有对数据正则化
使用过大的样本
使用不正确的学习率
在输出层使用错误的激活函数
网络中包含坏梯度
初始化权重错误
过深的网络
隐藏单元数量错误

1、没有对数据进行归一化

问题描述：
在使用神经网络之前，对数据进行归一化十分重要。在深度学习社区，这一步通常众所周知，因此它很少在论文中提及，这导致初学者很容易在这方面犯错。因为一旦你没有谨慎和正确的对数据进行归一化，你的神经网络很可能无法运行（收敛）。

原理：
这是由于不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

此外，大部分神经网络流程都假设输入输出是在0附近的分布，从权值初始化到激活函数、从训练到训练网络的优化算法。

解决办法：

通常归一化的是指将数据减去均值并除去方差，这是对每个输出和输入数据都要处理的。也可以对部分数据进行归一化处理。

2、忘记检查输入和输出

问题描述：

假设你已经训练了多个周期，同时损失函数相比最初也有了明显的变小，但往往这并不意味着训练工作的完成。在你的代码中，在数据预处理、训练代码等都有可能出现错误，而损失函数的下降并不意味着网络学习到了有用的东西

原理：

这是由于与传统的编程不同，机器学习对于某些错误不能够及时有效的反馈错误信息，以便我们回过头来对代码BUG进行检查。

解决办法：

通常，你需要找到一些可视化结果的工具。例如对于动画和图片，这步显得较为轻松。但如果是其他格式的数据，你需要找到检查结果的方法，从而与监督数据进行对比，以便确保神经网络正常运行。

3、没有对数据进行预处理

问题描述：

大多数数据通常结构复杂，以角色动画为例：假使我们使用角色关节的中心坐标来捕捉运动，那么当角色向某个方向执行动作时，相对于不同位置，不同方向执行同一动作，可能会产生大量不同的数值形式。那么我们需要以不同的方式表示数据，例如建立局部参考坐标，以便相似的动作有近乎类似的数值形式。

原理：

对于输入数据来说，假如数据所处空间是连续的。那么两组相似的输入数据至少应有一些交集。假如数据空间中存在较大的不连续性、大量需要变换分离数据都可能使学习任务变得困难。

解决办法：

思考数据的特征，是否有简单的变换、是否可以用相似的数值表示、是否有局部的坐标系统或更好的色彩空间。

4、没有对数据正则化

问题描述：

正则化通常以dropout层、添加噪声、或网络随机过程的某种形式进行。是训练神经网络另一个必不可少的关键。即使你拥有比参数多得多的数据量、或过拟合可以被允许的情况下、甚至对没有出现过拟合的网络，你仍然需要添加dropout或其他形式的噪声。

解决办法：

正则化的基本方法是在网络层之间添加dropout，设置从中到高的训练概率。例如0.75或0.9。如果你仍然认为不太可能出现过拟合，可以将此参数设置为较高的值例如0.99。

5、使用过大的样本

问题描述：

使用太大的训练样本可能会对网络在训练过程中的准确性造成负面影响，这是由于大样本会破坏梯度下降的随机性。

原理：

使用小样本与更为随机的权重。这样做有两大好处。首先，这样可以帮助训练跳出鞍点。其次，可以使训练在更为平缓的局部最小值停止。一般而言，后者具备更好的泛化性能。

解决方法：

尽可能小的缩减你的样本尺寸。在训练时可以最大化利用GPU并行性。此外更大的样本需要更多训练周期才能达到相同的准确度。最好使用较小的样本（16、8、1）。

6、学习率不正确

问题描述：

学习率会对训练结果产生很大影响。

原理：

很多深度学习框架会启用梯度裁剪（Clipping Gradient）。这可以防止训练过程中出现的梯度爆炸。它会在每一步中强制改变权重，让权重发生最大限度的改变。这在数据中含有大量异常时尤为有效。但是，开启这个选项也会让用户难以手动找到最佳的学习率。大多数用户由于梯度裁剪将学习率设置的过高，使整体训练行为变慢、也使结果不可预测。

解决办法：

关掉梯度裁剪。找到不会发生错误的最高学习率，并稍稍降低一些数值。这将十分靠近最佳学习率。

7、在输出层使用错误的激活函数

问题描述：

在最后一层使用激活函数时，无法产生所需全部范围的值。假使你使用Relu这类限制范围的函数，神经网络便只会训练得到正值。

原理：

如果你的输出值只在特定的范围有意义，例如0-1。那么最终应使用特定的激活函数例如Sigmoid。但如果你的输出为不限制范围的正数或复数，则不应在最终层使用激活函数。

解决办法：

如果你的目的是回归而不是分类，那么绝大多数时候你不应该在最后一层使用激活函数。其他视情况而定。

8、网络有坏的梯度

问题描述：

使用ReLU激活函数的网络通常会受到“坏死神经”的影响。后者是由于不良梯度的影响。这可能会对网络的性能造成影响。甚至会使整个神经网络瘫痪。

原理：

ReLU激活函数的梯度在正值为1，负值为0。当输入小于0时，输入的微弱变化并不会对输出造成影响，短期看，由于正值的大梯度这并不会成为问题。但由于多层神经网络的叠加，其他层的负值权重会对梯度很大的正值变为梯度为0的负值。因此，一些隐藏单元会对最后的函数造成坏的梯度，从而导致权重无法更新，影响整个神经网络。

解决办法：

如果你发现多个训练周期以后损失函数都没有收敛，那么可能是由于ReLU激活函数造成的。尝试切换到leaky ReLU或ELU。然后再看看问题是否解决。

9、没有正确初始化权重

问题描述：

如果你没有正确初始化神经网络的权重，那么神经网络便无法正常工作。

解决办法：

"lecun"或"xavier"的权重初始化几乎在所有情况下表现良好。当你的神经网络正常后，

使用过大的样本
使用不正确的学习率
在输出层使用错误的激活函数
网络中包含坏梯度
初始化权重错误
过深的网络
隐藏单元数量错误

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何做多组平均值加方差的图？向大咖问开源多彩生活
2021-04-03 17:33

回答 2 已采纳 1 如果用软件作图, python中matplotlib 和seaborn工具包可以做类似的图. 可以参考下seaborn的官网: https://seaborn.pydata.org/exampl
设计函数求 N 个给定整数的均方差 python
2022-06-07 21:51

回答 1 已采纳 N = int(input()) nums = list(map(int, input().split())) avg = sum(nums)/N std = (sum((i-avg)**2 for
方差始终为0且每个学生成绩不输出？ c++ c语言
2021-07-24 15:44

回答 2 已采纳修改地方用//注释了 #include<stdio.h> #define N 5 #define M 5 float score[N][M]; float a_stu[N],a_cou
神经网络训练怎么看收敛,神经网络收敛的定义是
2022-10-18 18:50

vvccyyqq的博客 NaN意思是Not A Number，除非是发散，不过一般不会出现这种情况神经网络收敛的定义。可能你的程序有错。如果是新定义算法的话理论上的收敛要证明,可以证明它在迭代次数趋近无穷的时候等于某一解,也可以证明它满足...
高斯噪声的均值和方差 python 深度学习神经网络
2021-01-31 15:54

回答 1 已采纳你好，我是微信公众号「机器学习炼丹术」的号主： 1，使用输入数据可以增加噪音，目的是增加模型的训练稳定性； 2，我一般的噪音设置为；0均值1方差。这个需要看你的输入数据的均值方差来判断，一般噪音的
计算最低分输出0，平均分方差出现负值 c语言
2022-11-20 15:02

回答 1 已采纳最低分你的初始值设为0，没有分低于0，所以输出为0。将最低分初始值设为第一个成绩。 float lowest()//计算低分 { int i,j; float l; for(j
我利用python程序计算方差等数据，但是结果感觉偏大，不知道单位是什么 python 机器学习
2023-04-05 22:02

回答 2 已采纳单位是平方
神经网络的偏差和方差,神经网络均方误差公式
2022-10-22 12:48

aifans_bert的博客因为p[j]是二级指针,存放的是某指针的地址,某指针可以指向一维数组.-1, 1, 5, -3;%------------------附加:抽取数学表达式----------------------------top。%利用x(t-5),x(t-4),x(t-3),x(t-2),x(t-1)作为输入预测x...
求集合数据的的均方差 c语言
2022-11-29 16:52

回答 1 已采纳个人觉得这里应该是没差的，因为这里你是直接给double初始化，而这个加.其实就是标识它是一个浮点数喽，int在表达式中计算还是按int算的，想以浮点数就需要一些技巧，这就是吧
高分悬赏：Java语言如何生成符合正态分布的100个0~100的整数，均值是50，方差是10 开发语言
2020-04-26 15:04

回答 3 已采纳不建议重复造轮子，因为 JDK 已经封装了正态分布的函数了：[Java 正态分布](https://blog.csdn.net/jjwwwww/article/details/82017508 "")
各位大佬帮忙看看这段求标准化和标准方差哪里出问题了？ c++ c语言
2020-06-12 12:20

回答 1 已采纳 printf("%3d %6.2f %8.4f %8.4f\n");输出的变量呢
人工智能学习——神经网络（matlab+python实现）
2022-04-21 20:54

NIkoeimi的博客文章目录神经网络前言一、神经网络理论知识二、matlab实现神经网络1.引入库2.读入数据三、python实现神经网络1.引入库总结前言此文章仅作为个人学习笔记使用，主要介绍理论以及学习过程，仅供参考！一、神经...
标准化之后的数据的平均值是否等于0 python 人工智能算法
2022-05-25 22:30

回答 1 已采纳因为你输出的不是标准化之后数据 ret-data 的均值和方差
反向传播神经网络基本原理,神经网络前向传播
2022-08-25 16:29

ai智能网络的博客更新权重这一步里面就没什么东西了，直接根据学习率来更新权重：至此，一次正向+反向传播过程就到此为止，接下来只需要进行迭代，不断调整边的权重，修正网络的输出和实际结果之间的偏差（也就是training整个网络）...
神经网络不收敛的 11 个原因及其解决办法
2021-05-04 16:13

spearhead_cai的博客原文标题：My Neural Network isn’t working! What should I do? 译文作者：kbsc13 联系方式： ...知乎专栏：机器学习与计算机视觉，AI 论文笔记 ...一般来说，神经网络不收敛的原因有以下 11 种原因：
没有解决我的问题, 去提问

悬赏问题

¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作

神经网络的M均方差向1收敛而不是向0收敛是什么原因？

1条回答 默认 最新

悬赏问题

1条回答默认最新