强化学习DDPG算法,奖励函数越来越小是为什么啊?我希望奖励值越来越大,直到趋于稳定,可结果相反

强化学习DDPG算法,奖励函数越来越小是为什么啊?我希望奖励值越来越大,直到趋于稳定,可结果相反

(1) 为什么训练DQN会出现reward稳定下降收敛的现象?哪些原因可能导致这种情况? - 知乎. https://www.zhihu.com/question/418080334.
(2) 想问一下,强化学习的奖励突然下降,可能会是什么原因导致的? - 知乎. https://www.zhihu.com/question/451373975.
(3) 深度确定性策略梯度算法,越训练效果越差? - 知乎. https://www.zhihu.com/question/61035679.
(4) 为什么使用DDPG进行路径规划,得到的奖励值一直是忽高忽低不收敛? - 知乎. https://www.zhihu.com/question/383492718.