isMr_Sun 2024-02-19 20:25 采纳率: 25%
浏览 7

多层感知机问题我想手动的对一个三层的感知机(输入层、隐藏层、输出层)计算参数梯度,想知道一下损失L对W1、b1、W2、b2的求导公式怎么推理(相关搜索:交叉熵损失函数)

多层感知机问题
我想手动的对一个三层的感知机(输入层、隐藏层、输出层)计算参数梯度,损失函数使用交叉熵损失函数,想知道一下损失L对W1、b1、W2、b2的求导公式怎么推理。
这个图片是我看的一篇论文中的对输出层参数的求导公式,我实在是没懂他这是怎么推出来的,这篇论文假定每个样本有a个特征、隐藏层大小为b,类别总数为c,Wo为输出层参数,Wh为隐藏层参数,这里的Es是交叉熵损失函数,可以当作Loss

img

img

  • 写回答

2条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2024-02-19 22:11
    关注

    【相关推荐】



    • 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7803206
    • 除此之外, 这篇博客: 机器学习-过拟合、正则化、稀疏性、交叉验证概述中的 2)可解释性(Interpretability): 另一个青睐于稀疏的理由是,模型更容易解释。例如患某种病的概率是y,然后我们收集到的数据x是1000维的,也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型:y=w1*x1+w2*x2+…+w1000*x1000+b(当然了,为了让y限定在[0,1]的范围,一般还得加个sigmoid函数)。通过学习,如果最后学习到的w*就只有很少的非零元素,例如只有5个非零的wi,那么我们就有理由相信,这些对应的特征在患病分析上面提供的信息是巨大的,决策性的。也就是说,患不患这种病只和这5个因素有关,那医生就好分析多了。但如果1000个wi都非0,医生面对这1000种因素. 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

    如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
    评论

报告相同问题?

问题事件

  • 创建了问题 2月19日

悬赏问题

  • ¥15 PVE8.2.7无法成功使用a5000的vGPU,什么原因
  • ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
  • ¥15 安装quartus II18.1时弹出此error,怎么解决?
  • ¥15 keil官网下载psn序列号在哪
  • ¥15 想用adb命令做一个通话软件,播放录音
  • ¥30 Pytorch深度学习服务器跑不通问题解决?
  • ¥15 部分客户订单定位有误的问题
  • ¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
  • ¥15 Bug traq 数据包 大概什么价
  • ¥15 在anaconda上pytorch和paddle paddle下载报错