m0_63037953 2021-12-24 17:14
浏览 9
已结题

关于《Episodic Curiosity Through Reachability》的几点疑问

对于强化学习sparse reward相关的论文《Episodic Curiosity Through Reachability》,有几个疑问,还麻烦帮忙解答一下,谢谢了。

  1. 做逻辑回归部分目标值是从哪里来的呢?是agent先与环境互动来收集经验吗?
  2. 步长k是怎么定的呢?
  3. 如果目前状态与memory中的状态步长<k时,还会被记忆在memory buffer中吗?
  4. R network包含Episodic memery module 和Reward bonus estimation module 吗?
    万分感激!
  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 1月1日
    • 创建了问题 12月24日