多层感知机问题
我想手动的对一个三层的感知机(输入层、隐藏层、输出层)计算参数梯度,损失函数使用交叉熵损失函数,想知道一下损失L对W1、b1、W2、b2的求导公式怎么推理。
这个图片是我看的一篇论文中的对输出层参数的求导公式,我实在是没懂他这是怎么推出来的,这篇论文假定每个样本有a个特征、隐藏层大小为b,类别总数为c,Wo为输出层参数,Wh为隐藏层参数,这里的Es是交叉熵损失函数,可以当作Loss
多层感知机问题我想手动的对一个三层的感知机(输入层、隐藏层、输出层)计算参数梯度,想知道一下损失L对W1、b1、W2、b2的求导公式怎么推理(相关搜索:交叉熵损失函数)
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
2条回答 默认 最新
关注 【相关推荐】
- 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7803206
- 除此之外, 这篇博客: 机器学习-过拟合、正则化、稀疏性、交叉验证概述中的 2)可解释性(Interpretability): 另一个青睐于稀疏的理由是,模型更容易解释。例如患某种病的概率是y,然后我们收集到的数据x是1000维的,也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型:y=w1*x1+w2*x2+…+w1000*x1000+b(当然了,为了让y限定在[0,1]的范围,一般还得加个sigmoid函数)。通过学习,如果最后学习到的w*就只有很少的非零元素,例如只有5个非零的wi,那么我们就有理由相信,这些对应的特征在患病分析上面提供的信息是巨大的,决策性的。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。但如果1000个wi都非0,医生面对这1000种因素. 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^解决 无用评论 打赏 举报
悬赏问题
- ¥15 PVE8.2.7无法成功使用a5000的vGPU,什么原因
- ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
- ¥15 安装quartus II18.1时弹出此error,怎么解决?
- ¥15 keil官网下载psn序列号在哪
- ¥15 想用adb命令做一个通话软件,播放录音
- ¥30 Pytorch深度学习服务器跑不通问题解决?
- ¥15 部分客户订单定位有误的问题
- ¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
- ¥15 Bug traq 数据包 大概什么价
- ¥15 在anaconda上pytorch和paddle paddle下载报错