哈喽啊,老铁们。有伙伴研究强化学习中的DDPG算法吗,我现在的问题是:算法中对于actor网络,目标网络权值w'的更新与当前网络权值w有关,也就是w'=tau*w+(tau-1)*w'。当前网络权值w是基于梯度下降法更新的,而目标网络权值w'更新是基于上面那个式子的,那目标网络对于权值的训练是不是就不需要梯度下降法了?
悬赏问题
- ¥15 esp32驱动GC9A01循环播放视频
- ¥15 惠普360g9的最新bios
- ¥15 配置hadoop时start-all.sh老是启动失败
- ¥30 这个功能用什么软件发合适?
- ¥60 微信小程序,取消订单,偶尔订单没有改变状态
- ¥15 用pytorch实现PPO算法
- ¥15 关于调制信号的星座图?
- ¥30 前端传参时,后端接收不到参数
- ¥15 这是有什么问题吗,我检查许可证了但是显示有呢
- ¥15 机器学习预测遇到的目标函数问题