在2.3.2中,当评估动作价值的时候,旧参数是w,而新参数 w+$\alpha [G-q(S_t,A_t;w)] \nabla q(S_t,A_t;w)$.是如何计算的呢?
对$[G-q(S_t,A_t;w)]^2$中的w求梯度的话,为 $2*[G-q(S_t,A_t;w)] \nabla q(S_t,A_t;w)$,w+$\alpha$是怎么来的呢
对$[G-q(S_t,A_t;w)]^2$中的w求梯度的话,为 $2*[G-q(S_t,A_t;w)] \nabla q(S_t,A_t;w)$,w+$\alpha$是怎么来的呢