强化学习训练DQN模型

训练模型的时候发现训练越长时间，反而效果不好。
训练了8小时的DQN架构的模型比不过4小时的，有哪位资深博主能解释一下吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-07-22 03:38
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
你看下这篇博客吧, 应该有用👉 ：麻雀虽小，五脏俱全，100行代码实现最简单的DQN
除此之外, 这篇博客: 从零搭建强化学习DQN框架中的 训练效果展示 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

训练一段时间之后，test_reward可以达到200分，此时倒立摆可以稳定地束起来（读者可以自行调节learning_rate，网络模型查看不同效果）

以下回答来自chatgpt:
问题的现象是训练时间越长，模型的效果反而越差。这可能是由于以下原因导致的：

过拟合：训练时间长可能导致模型在训练数据上过度拟合，使得在新的数据上表现差。可以通过增加数据集的多样性，增加正则化惩罚项，或使用早停策略等方式来减少过拟合。

学习率设置不合适：学习率过大可能导致模型在训练过程中收敛不稳定，学习率过小可能导致收敛过慢。可以尝试调整学习率的大小，或使用自适应学习率的优化算法，如Adam。

DQN架构的不稳定性：DQN算法本身存在训练不稳定的问题，表现为训练开始时，模型的效果会很差，然后逐渐收敛。可以尝试使用经验回放、目标网络等方法来缓解这个问题。

模型的超参数选择：模型的超参数选择可能会影响模型的性能，如网络结构、训练参数等。可以尝试调整超参数的选择，比如调整神经网络的层数、神经元个数等。

综上所述，可以尝试以下解决方案来解决该问题：

增加训练数据的多样性，如通过引入不同的游戏状态、调整游戏环境等来增加多样性。

调整学习率的大小，可以尝试使用自适应学习率的优化算法，如Adam。

使用经验回放和目标网络等方法来缓解DQN算法的不稳定性问题。

调整模型的超参数选择，可以尝试调整神经网络的层数、神经元个数等。

如果以上方法都不能解决问题，可能需要进一步分析模型训练过程中的其他因素，比如数据预处理、网络结构等，或者考虑尝试其他的强化学习算法。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

强化学习DQN:AttributeError: 'CartPoleEnv' object has no attribute 'seed' python pytorch 深度学习
2022-09-15 12:25

回答 2 已采纳你把gym换成0.25.2版本就行了。 pip install gym==0.25.2
如何快速掌握深度强化学习的各种算法，比如DQN，DDPG，PPO，SAC等等，并用Python准确实现呢？？ python pytorch 机器学习
2023-02-11 18:41

回答 1 已采纳以下答案引用自GPT-3大模型,请合理使用： ```想请问大神们，有没有比较好的资料或者指导方法，能够快速掌握深度强化学习的各种算法呢？首先，你需要理解深度强化学习的基本概念。然后，你可以通过阅读相
请各位大神帮帮忙,因为这是毕业论文所用的代码,我想问问到底是否是对的,看看是我代码错了,还是逻辑错了 python 人工智能有问必答机器学习
2021-03-15 15:12

回答 4 已采纳应该是没有读取进来数据。在getstate函数里，for循环没有运行，所以state是None。也可能len(block)刚好等于1，而你又用len(block)-1,所以循环没有进行。我不知道你是不
基于深度强化学习的DQN模型实现自动玩俄罗斯方块游戏（附详细代码讲解）
2023-07-28 15:34

这个代理使用DQN算法来学习最优的决策策略。 2.代理的目标是找到所有可能状态的最佳最终状态的组合，而不是传统方法中找到特定状态的最佳动作。 3.通过使用深度神经网络来逼近Q函数，代理可以处理大型状态空间的问题...
神经网络能否不失一般性地解图的最短路径问题？机器学习神经网络
2018-12-12 04:37

回答 1 已采纳已找到，使用图网络模型可以实现。
各位大神，想请各位帮我问一问，到底该如何将xlsx数据加入数组 python 有问必答机器学习
2021-03-18 10:05

回答 10 已采纳直接用pandas库来读就行 import pandas as pd data = pd.read_excel('文件名称',sheet_name='表单名称') stockData = list
运行roscore出现ModuleNotFoundError: No module named error linux
2022-11-09 15:31

回答 2 已采纳这是由于python版本过多导致的，打开终端第一行输入以下代码即可 !/user/bin/env python<你的版本ROS使用>
基于强化学习DQN算法+训练AI模型来玩合成大西瓜游戏python源码+项目说明（提供Keras版本和PARL版本）.zip
2024-04-12 09:14

基于强化学习DQN算法+训练AI模型来玩合成大西瓜游戏python源码+项目说明（提供Keras版本和PARL（paddle）版本）.zip基于强化学习DQN算法+训练AI模型来玩合成大西瓜游戏python源码+项目说明（提供Keras版本和PARL...
python用openpyxl保存excel时出现OSError: [Errno 9] Bad file descriptor，如何解决？ python
2022-08-11 21:07

回答 2 已采纳代码本身测试：这个代码在本地新建环境下使用是正常的错误解析： OSError: [Errno 9] Bad file descriptor Bad file descriptor 错误的文件描述符
mat 1 and mat2 shapes cannot be multiplied （1*4 and 6*50) python
2022-10-27 10:42

回答 1 已采纳是的，把6改成4
各位大神好，请帮我看看以下这个问题可以吗？解决不了 python
2021-02-07 19:15

回答 5 已采纳还有你循环中 table.col_values(5,0,row_num) 每次获取0到row_num行的列表，获取数据重复了啊。是不是应该改为 table.cell_value(row_nu
基于强化学习DQN算法+训练AI模型来玩合成大西瓜游戏python源码+项目说明（Keras和PARL（paddle））.zip
2024-04-10 21:26

基于强化学习DQN算法+训练AI模型来玩合成大西瓜游戏python源码+项目说明（提供Keras版本和PARL（paddle）版本）.zip ## 1. 打开游戏：这里使用pygame重写了大西瓜游戏，并封装为适合RL环境的代码。运行： ```...
Golang：xml解组无法正常工作 xml
2017-06-05 08:39

回答 1 已采纳 The problem here is that you are using attr where you shouldn't. You are treating the XMLEntry an
【深度强化学习】(1) DQN 模型解析，附Pytorch完整代码
2023-03-10 18:35

立Sir的博客 DQN（Deep Q Network）是深度神经网络和 Q-Learning 算法相结合的一种基于价值的深度强化学习算法。DQN 同时用到两个结构相同参数不同的神经网络，区别是一个用于训练，另一个不会在短期内得到训练.通过采用第二个...
利用强化学习方法 DQN 生成基于机器学习的恶意流量检测模型.zip
2024-02-15 13:23

人工智能-机器学习
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月20日

悬赏问题

¥15 SQL Server下载
¥15 python如何将动态的多个子列表，拼接后进行集合的交集
¥20 vitis-ai量化基于pytorch框架下的yolov5模型
¥15 如何实现H5在QQ平台上的二次分享卡片效果？
¥15 python爬取bilibili校园招聘网站
¥30 求解达问题（有红包）
¥15 请解包一个pak文件
¥15 不同系统编译兼容问题
¥100 三相直流充电模块对数字电源芯片在物理上它必须具备哪些功能和性能？
¥30 数字电源对DSP芯片的具体要求

强化学习训练DQN模型

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新