DQN遇到大状态空间效果差

强化学习DQN应用在状态较多的环境下效果不好，如何改善

本人刚刚接触强化学习，在使用DQN进行路径规划时，当栅格环境较小时运行的效果不错，但当栅格数量成倍增长时效果较差。怀疑是奖励函数or神经网络方面的原因，但环境只是增大并没有别的变化，按道理讲奖励函数在小栅格环境中适用，在大环境中也应该可以，目前怀疑是神经网络过于简单，目前神经网络隐藏层三层，神经元每层128个，有必要再增加网络层数吗？
烦请支支招啦！！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

【机器学习】33 强化学习 - 连续状态空间（DQN算法）
2025-12-11 19:58

Jay2002111的博客本文介绍了深度Q网络(DQN)算法在连续状态空间中的应用。以月球着陆器为例，说明如何用神经网络学习状态-动作值函数，输入为8维状态向量和4种动作的独热编码。DQN通过贝尔曼方程生成训练样本，采用经验回放机制打破...
python编程实现的单智能体DQN强化学习算法
2025-07-19 17:46

在强化学习领域，DQN（深度Q网络）是一个里程碑式的发展，它通过结合深度学习与Q学习算法，使得智能体能够在复杂的环境中进行有效...随着技术的不断进步，未来DQN算法及其变种有望在人工智能领域扮演更加重要的角色。
DQN解决AI序列决策[可运行源码]
2025-11-17 07:06

动态规划方法虽然理论上可以解决序列决策问题，但在状态空间较大或连续时会遇到计算资源和复杂度的限制。 DQN通过使用深度神经网络来近似Q函数，使得算法可以应用于具有大规模状态空间的问题。Q函数是强化学习中的...
一切皆是映射：使用DQN解决连续动作空间问题：策略与挑战
2024-06-12 00:24

AGI大模型与大数据研究院的博客一切皆是映射：使用DQN解决连续动作空间问题：策略与挑战 1.背景介绍在强化学习（Reinforcement Learning, RL）领域，深度Q网络（Deep Q-Network, DQN）已经成为解决离散动作空间问题的经典方法。然而，现实世界中...
【强化学习解惑】如果状态空间或动作空间很大，如何应对维度灾难？
2025-08-14 14:15

云博士的AI课堂的博客如果状态空间或动作空间很大，如何应对维度灾难？
DQN_point_game.rar
2021-03-14 14:20

强化学习是人工智能领域的一个重要分支，它通过与环境的交互来学习最优策略，达到最大化长期奖励的目标。在本示例中，“DQN_point_game.rar”是一个包含应用深度Q网络（Deep Q-Network, DQN）算法来玩五子棋游戏的...
【强化学习】DQN 算法
2025-11-10 21:24

.笑对人生.的博客实验结果显示，经过500回合训练后，智能体能够在环境中获得接近满分的表现，证明了DQN在处理连续状态空间问题上的有效性。文章详细阐述了算法原理、网络架构和具体实现代码，为理解深度强化学习提供了一个典型范例。
基于强化学习的车间调度优化：DQN与PPO算法的应用研究 - DQN
2025-07-29 19:40

使用场景及目标：适用于希望通过引入先进的人工智能技术来提高生产效率的企业管理者和技术团队。主要目标是帮助他们掌握如何运用DQN和PPO算法优化车间调度流程，从而减少调度延迟、提高设备利用率。其他说明：文中...
一切皆是映射：如何评估DQN的学习效果？性能指标与分析方法
2024-04-23 13:50

光子AI的博客输入是环境状态,输出是每个可能行动的Q值。我们定义了一个经验回放池,用于存储智能体与环境的交互经验。push方法用于将新的经验添加到池中,sample方法用于从池中随机采样一个批次的经验。scores = [] # 记录每个...
基于强化学习的车间调度优化：DQN与PPO算法的应用研究
2025-04-29 00:24

使用场景及目标：适用于希望通过引入先进的人工智能技术提高生产效率的企业管理者和技术团队。主要目标是帮助读者掌握如何运用DQN和PPO算法构建高效的车间调度系统，从而有效减少调度延迟、提高设备利用率并增强系统...
强化学习（十三）DQN
2025-05-29 17:20

comli_cn的博客例如，现实中的强化学习任务所面临的状态空间往往是连续的，存在无穷多个状态，在这种情况下，就不能再使用表格对价值函数进行存储。价值函数近似利用函数直接拟合状态价值函数或动作价值函数，降低了对存储空间的...
DQN,DDPG,PPO 等强化学习算法在人工智能中的未来发展方向：从大规模到小规模部署
2023-07-24 01:03

光子AI的博客随着近年来人工智能领域的蓬勃发展，强化学习（Reinforcement Learning, RL）被越来越多的人认可并应用于人工智能领域。如今，RL已经可以处理许多复杂的问题，如自动驾驶、机器人控制等。在过去的一段时间里，我一直...
DQN 算法
2025-01-02 09:37

解忧AI铺的博客 DQN代码实战
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月24日

DQN遇到大状态空间效果差

0条回答 默认 最新

问题事件

0条回答默认最新