强化学习DQN应用在状态较多的环境下效果不好,如何改善
本人刚刚接触强化学习,在使用DQN进行路径规划时,当栅格环境较小时运行的效果不错,但当栅格数量成倍增长时效果较差。怀疑是奖励函数or神经网络方面的原因,但环境只是增大并没有别的变化,按道理讲奖励函数在小栅格环境中适用,在大环境中也应该可以,目前怀疑是神经网络过于简单,目前神经网络隐藏层三层,神经元每层128个,有必要再增加网络层数吗?
烦请支支招啦!!
强化学习DQN应用在状态较多的环境下效果不好,如何改善
本人刚刚接触强化学习,在使用DQN进行路径规划时,当栅格环境较小时运行的效果不错,但当栅格数量成倍增长时效果较差。怀疑是奖励函数or神经网络方面的原因,但环境只是增大并没有别的变化,按道理讲奖励函数在小栅格环境中适用,在大环境中也应该可以,目前怀疑是神经网络过于简单,目前神经网络隐藏层三层,神经元每层128个,有必要再增加网络层数吗?
烦请支支招啦!!