panbaoran913 2021-10-22 13:28 采纳率: 71.4%
浏览 6
已结题

强化学习中,随机梯度下降的方法,如下图所示,为什么如此更新呢?

img


在2.3.2中,当评估动作价值的时候,旧参数是w,而新参数 w+$\alpha [G-q(S_t,A_t;w)] \nabla q(S_t,A_t;w)$.是如何计算的呢?

对$[G-q(S_t,A_t;w)]^2$中的w求梯度的话,为 $2*[G-q(S_t,A_t;w)] \nabla q(S_t,A_t;w)$,w+$\alpha$是怎么来的呢

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 10月30日
    • 创建了问题 10月22日

    悬赏问题

    • ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
    • ¥15 安装quartus II18.1时弹出此error,怎么解决?
    • ¥15 keil官网下载psn序列号在哪
    • ¥15 想用adb命令做一个通话软件,播放录音
    • ¥30 Pytorch深度学习服务器跑不通问题解决?
    • ¥15 部分客户订单定位有误的问题
    • ¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
    • ¥15 Bug traq 数据包 大概什么价
    • ¥15 在anaconda上pytorch和paddle paddle下载报错
    • ¥25 自动填写QQ腾讯文档收集表