我的名字会很长长长长长长长长 2021-05-17 22:26 采纳率: 0%
浏览 67

哈喽啊,老铁们。有伙伴研究强化学习中的DDPG算法吗,我现在的问题是:算法中对于actor网络,目标

哈喽啊,老铁们。有伙伴研究强化学习中的DDPG算法吗,我现在的问题是:算法中对于actor网络,目标网络权值w'的更新与当前网络权值w有关,也就是w'=tau*w+(tau-1)*w'。当前网络权值w是基于梯度下降法更新的,而目标网络权值w'更新是基于上面那个式子的,那目标网络对于权值的训练是不是就不需要梯度下降法了?
  • 写回答

1条回答 默认 最新

  • 关注

    对的,在训练过程结束时进行目标网络和当前网络的软更新,也就是上面那个式子

    评论

报告相同问题?