Aossssss 2024-01-05 16:16 采纳率: 0%
浏览 870
已结题

强化学习DDPG算法,奖励函数越来越小是为什么啊。我希望奖励值越来越大,直到趋于稳定,可结果相反

强化学习DDPG算法,奖励函数越来越小是为什么啊?我希望奖励值越来越大,直到趋于稳定,可结果相反

img

  • 写回答

12条回答 默认 最新

  • 技术宅program 2024-01-05 16:45
    关注

    (1) 为什么训练DQN会出现reward稳定下降收敛的现象?哪些原因可能导致这种情况? - 知乎. https://www.zhihu.com/question/418080334.
    (2) 想问一下,强化学习的奖励突然下降,可能会是什么原因导致的? - 知乎. https://www.zhihu.com/question/451373975.
    (3) 深度确定性策略梯度算法,越训练效果越差? - 知乎. https://www.zhihu.com/question/61035679.
    (4) 为什么使用DDPG进行路径规划,得到的奖励值一直是忽高忽低不收敛? - 知乎. https://www.zhihu.com/question/383492718.

    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 1月7日
  • 创建了问题 1月5日