求朋友能帮忙解决下关于DDPG的一些疑问吗
之前在用DDPG做预测-矫正,发现奖励先上升后下降,而且这个奖励跟自己设计的奖励函数有很大的关系。现在不知道怎么解决这个问题?
加噪声进行探索也没什么大的作用

求朋友能帮忙解决下关于DDPG的一些疑问吗
之前在用DDPG做预测-矫正,发现奖励先上升后下降,而且这个奖励跟自己设计的奖励函数有很大的关系。现在不知道怎么解决这个问题?
加噪声进行探索也没什么大的作用

以下回复参考:皆我百晓生、券券喵儿等免费微信小程序作答:
从你给出的描述和图表来看,你在使用DDPG(深度确定性策略梯度)进行强化学习时遇到了奖励先上升后下降的问题。这可能与多种因素有关,包括奖励函数的设计、模型的训练过程、超参数的选择等。下面是一些建议来帮助你解决这个问题:
最后,记住强化学习是一个迭代过程,需要多次试验和调整参数才能找到最佳解决方案。祝你好运!