panbaoran913 2021-10-22 13:28 采纳率: 71.4%
浏览 6
已结题

强化学习中,随机梯度下降的方法,如下图所示,为什么如此更新呢?

img


在2.3.2中,当评估动作价值的时候,旧参数是w,而新参数 w+$\alpha [G-q(S_t,A_t;w)] \nabla q(S_t,A_t;w)$.是如何计算的呢?

对$[G-q(S_t,A_t;w)]^2$中的w求梯度的话,为 $2*[G-q(S_t,A_t;w)] \nabla q(S_t,A_t;w)$,w+$\alpha$是怎么来的呢

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 10月30日
    • 创建了问题 10月22日