对于强化学习sparse reward相关的论文《Episodic Curiosity Through Reachability》,有几个疑问,还麻烦帮忙解答一下,谢谢了。
- 做逻辑回归部分目标值是从哪里来的呢?是agent先与环境互动来收集经验吗?
- 步长k是怎么定的呢?
- 如果目前状态与memory中的状态步长<k时,还会被记忆在memory buffer中吗?
- R network包含Episodic memery module 和Reward bonus estimation module 吗?
万分感激!