学习ML的梯度下降部分时,对随机梯度下降的梯度推导不太清楚,见下图,为什么sigma符号能把后面的yi也包进去?h(x)不是只等于w和x的相乘再相加么,要是将yi也加进去,那不就是i自增一下,式子就得减一个yi了?实在是没看明白,请求指正。
关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率

已结题
机器学习梯度下降的公式理解,求正解。
收起
- 写回答
- 好问题 0 提建议
- 关注问题
微信扫一扫
点击复制链接分享
- 邀请回答
- 编辑 收藏 删除
- 收藏 举报
1条回答 默认 最新
- 关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率
林地宁宁 2022-07-18 11:16关注对,这里的求和号不应该把 y^(i) 也包含进去,不过由于外面是对 w_j 进行微分,与 y^(i) 无关,所以实际上最终结果不受到影响
本回答被题主选为最佳回答 , 对您是否有帮助呢? 本回答被专家选为最佳回答 , 对您是否有帮助呢? 本回答被题主和专家选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏举报微信扫一扫
点击复制链接分享
编辑预览轻敲空格完成输入- 显示为
- 卡片
- 标题
- 链接
评论按下Enter换行,Ctrl+Enter发表内容
编辑
预览

轻敲空格完成输入
- 显示为
- 卡片
- 标题
- 链接
报告相同问题?
提交
- 2022-07-14 03:31回答 1 已采纳 公式只是公式,矩阵相乘看数据格式啊,公式只是说明,一般来说在机器学习里面如果没有特殊说明,y=XW+B 和 y=WX+B 在神经网络中是等价的,(不要和线代里面的矩阵乘法不能交换位置混掉),这两个意思
- 2020-02-22 06:04回答 2 已采纳 fit函数里面的while循环里的第一个if语句是想判断当前求得的self.w的精度,如果self.w和b的改变小于precision即认为精度达到要求,退出循环! 而第一次while循环时明显
- 2022-04-14 06:51回答 1 已采纳 因为下降方向就是梯度的负方向
- 2020-12-21 09:02《人工智能与机器学习-梯度下降法》 梯度下降法是机器学习和人工智能领域中一个基础且重要的优化算法,尤其在训练模型时用于寻找损失函数的最小值。它是一种一阶最优化方法,通过沿着目标函数梯度的负方向进行迭代...
- 2022-10-16 12:37回答 2 已采纳 loss先下降后上升,可能的原因之一是学习率比较大,随机梯度下降算法没法收敛。其他的疑问有点不太理解你的意思,哈哈!
- 2022-02-08 03:56回答 2 已采纳 这些知识属于工程数学原理的内容,具体分支是最优化理论,您可以参考相关教材。一般地,优化问题可以分为无约束优化和有约束优化,您提到的梯度法和牛顿法都属于无约束优化中的梯度类方法,此外无约束优化中还有非梯
- 2020-02-21 10:37回答 2 已采纳 ``` X.T * y - X.T * X * theta = 0 //蓝线公式打开括号,去掉常数项 X.T
- 2021-12-24 06:54机器学习是人工智能的一个重要分支,梯度下降是机器学习中常用的优化算法。下面是梯度下降算法的知识点总结: 1. 梯度下降算法的优点: - 可以处理大规模数值矩阵运算,梯度下降所遵循的迭代求解效率更高。 - ...
- 2022-10-11 04:37回答 1 已采纳 过拟合了可能
- 2021-09-04 12:06回答 2 已采纳 例如 encog (比较老的一个框架)可以用 save 导出。其他的肯定也有相关的,可以找找。 //EncogUtility.TrainToError(network, training, TAR
- 2022-10-11 07:24回答 1 已采纳 都一样,加法就是减法。他们一般用负梯度方向,因为国际上凸函数指的是往下凸的那种,所以一般常用负梯度方向,这样➕的话就相当于➖
- 2024-11-28 09:10写代码写到手抽筋的博客 这得从梯度下降更新得角度去考虑如果损失函数加上正则项,那么导函数就等于多了正则项的导函数,即原来比如 MSE的导函数和 L1、L2 的导函数,那么梯度 gradient 就是这两部分组成,每次减小的幅度就是学习率η×(MSE...
- 2020-07-10 07:28taoKingRead的博客 梯度下降算法(Gradient Descent Algorithm)是最常采用的方法之一,也是众多机器学习算法中最常用的优化方法,几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现...
- 2024-03-17 13:07挑大梁的博客 是一种优化算法,用于最小化一个函数的值,特别是用于训练机器学习模型中的参数,其基本思想是通过不断迭代调整参数的值,使得函数值沿着梯度的反方向逐渐减小,直至达到局部或全局最小值。学习率设置得太小,参数...
- 2024-11-17 11:00九筠的博客 相比于批量梯度下降(BGD)和随机梯度下降(SGD),小批量梯度下降综合了两者的优点,既在计算效率上比BGD更高,又比SGD更稳定,能够获得较为准确的梯度信息。总结来说,梯度下降算法的几何解释是,在目标函数的等高...
- 没有解决我的问题, 去提问
问题事件
联系我们(工作时间:8:30-22:00)
400-660-0108kefu@csdn.net在线客服
- 京ICP备19004658号
- 经营性网站备案信息
公安备案号11010502030143
- 营业执照
- 北京互联网违法和不良信息举报中心
- 家长监护
- 中国互联网举报中心
- 网络110报警服务
- Chrome商店下载
- 账号管理规范
- 版权与免责声明
- 版权申诉
- 出版物许可证
- ©1999-2025北京创新乐知网络技术有限公司