在DDPG的基础上加入了分层结构。在这里有几个问题想要咨询一下。
- 算法模型中出现的GRU是否所有的参数共享?
- 在actor_network中出现的GRU输入数据是【sj1,sj2,..sjT】,输出的结果是【yj1,yj2,..yjT】,而在critic_network中输入的数据是【(sj1,pj1),(sj2,pj2),..,(sjT,pjT)】,是这个样子嘛?
- 在critic_network中的localized Module是经过一个两层全连接网络,其这个网络的参数是如何变化与更新的那 ?这部分在求Q(st,at)中属于偏置项,是代表着网络的参数不变的嘛?这个偏置量的来源是什么呢?