DQN模型不收敛，目标求解也不好

这段DQN代码存在什么问题，为什么跑出来不收敛，而且效果不好


import numpy as np
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "-1"
import random
from collections import deque
from tensorflow.keras import layers,models
import tensorflow as tf
from Job_Shop import Situation
from tensorflow.keras.optimizers import Adam
from Instance_Generator import Processing_time,A,D,M_num,Op_num,J,O_num,J_num
import matplotlib.pyplot as plt
 
 
class DQN:
    def __init__(self,):
        self.Hid_Size = 30
 
        # ------------Hidden layer=5   30 nodes each layer--------------
        model = models.Sequential()
        model.add(layers.Input(shape=(7,)))
        model.add(layers.Dense(self.Hid_Size, name='l1'))
        model.add(layers.Dense(self.Hid_Size, name='l2'))
        model.add(layers.Dense(self.Hid_Size, name='l3'))
        model.add(layers.Dense(self.Hid_Size, name='l4'))
        model.add(layers.Dense(self.Hid_Size, name='l5'))
        model.add(layers.Dense(6, name='l6'))
        model.compile(loss='mse',
                      optimizer=Adam(learning_rate=0.001))
        # # model.summary()
        self.model = model
 
        #------------Q-network Parameters-------------
        self.act_dim=[1,2,3,4,5,6]                        #神经网络的输出节点
        self.obs_n=[0,0,0,0,0,0,0]                            #神经网路的输入节点
        self.gama = 0.95  # γ经验折损率
        # self.lr = 0.001  # 学习率
        self.global_step = 0
        self.update_target_steps = 200  # 更新目标函数的步长
        self.target_model = self.model
 
        #-------------------Agent-------------------
        self.e_greedy=0.6
        self.e_greedy_decrement=0.0001
        self.L=40          #Number of training episodes L
 
        #---------------Replay Buffer---------------
        self.buffer=deque(maxlen=2000)
        self.Batch_size=10       # Batch Size of Samples to perform gradient descent
 
    def replace_target(self):
        self.target_model.get_layer(name='l1').set_weights(self.model.get_layer(name='l1').get_weights())
        self.target_model.get_layer(name='l2').set_weights(self.model.get_layer(name='l2').get_weights())
        self.target_model.get_layer(name='l3').set_weights(self.model.get_layer(name='l3').get_weights())
        self.target_model.get_layer(name='l4').set_weights(self.model.get_layer(name='l4').get_weights())
        self.target_model.get_layer(name='l5').set_weights(self.model.get_layer(name='l5').get_weights())
        self.target_model.get_layer(name='l6').set_weights(self.model.get_layer(name='l6').get_weights())
 
    def replay(self):
        if self.global_step % self.update_target_steps == 0:
            self.replace_target()
        # replay the history and train the model
        minibatch = random.sample(self.buffer, self.Batch_size)
        for state, action, reward, next_state, done in minibatch:
            target = reward
            if not done:
                k=self.target_model.predict(next_state)
                target = (reward + self.gama *
                          np.argmax(self.target_model.predict(next_state)))
            target_f = self.model.predict(state)
            target_f[0][action] = target
            self.model.fit(state, target_f, epochs=1, verbose=0)
        self.global_step += 1
 
    def Select_action(self,obs):
        # obs=np.expand_dims(obs,0)
        if random.random()<self.e_greedy:
            act=random.randint(0,5)
        else:
            act=np.argmax(self.model.predict(obs))
        self.e_greedy = max(
            0.01, self.e_greedy - self.e_greedy_decrement)  # 随着训练逐步收敛，探索的程度慢慢降低
        return act
 
    def _append(self, exp):
        self.buffer.append(exp)
 
    def main(self,J_num, M_num, O_num, J, Processing_time, D, A):
        k = 0
        x=[]
        Total_tard=[]
        TR=[]
        for i in range(self.L):
            Total_reward = 0
            x.append(i+1)
            print('-----------------------开始第',i+1,'次训练------------------------------')
            obs=[0 for i in range(7)]
            obs = np.expand_dims(obs, 0)
            done=False
            Sit = Situation(J_num, M_num, O_num, J, Processing_time, D, A)
            for i in range(O_num):
                k+=1
                # print(obs)
                at=self.Select_action(obs)
                # print(at)
                if at==0:
                    at_trans=Sit.rule1()
                if at==1:
                    at_trans=Sit.rule2()
                if at==2:
                    at_trans=Sit.rule3()
                if at==3:
                    at_trans=Sit.rule4()
                if at==4:
                    at_trans=Sit.rule5()
                if at==5:
                    at_trans=Sit.rule6()
                # at_trans=self.act[at]
                print('这是第',i,'道工序>>','执行action:',at,' ','将工件',at_trans[0],'安排到机器',at_trans[1])
                Sit.scheduling(at_trans)
                obs_t=Sit.Features()
                if i==O_num-1:
                    done=True
                #obs = obs_t
                obs_t = np.expand_dims(obs_t, 0)
                # obs = np.expand_dims(obs, 0)
                # print(obs,obs_t)
                r_t = Sit.reward(obs[0][6],obs[0][5],obs_t[0][6],obs_t[0][5],obs[0][0],obs_t[0][0])
                self._append((obs,at,r_t,obs_t,done))
                if k>self.Batch_size:
                    # batch_obs, batch_action, batch_reward, batch_next_obs,done= self.sample()
                    self.replay()
                Total_reward+=r_t
                obs=obs_t
            total_tadiness=0
            Job=Sit.Jobs
            E=0
            K=[i for i in range(len(Job))]
            End=[]
            for Ji in range(len(Job)):
                End.append(max(Job[Ji].End))
                if max(Job[Ji].End)>D[Ji]:
                    total_tadiness+=abs(max(Job[Ji].End)-D[Ji])
            print('<<<<<<<<<-----------------total_tardiness:',total_tadiness,'------------------->>>>>>>>>>')
            Total_tard.append(total_tadiness)
            print('<<<<<<<<<-----------------reward:',Total_reward,'------------------->>>>>>>>>>')
            TR.append(Total_reward)
            # plt.plot(K,End,color='y')
            # plt.plot(K,D,color='r')
            # plt.show()
        plt.plot(x,Total_tard)
        plt.show()
        return Total_reward
 
 
d=DQN()
d.main(J_num, M_num, O_num, J, Processing_time, D, A)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-16 16:54
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

您想要解决的问题

您提问的目的是解决在运行深度Q网络（DQN）模型时遇到的不收敛问题，以及模型效果不佳的问题。

问题出现原因

学习率设置：模型使用的Adam优化器的学习率可能过高或过低，导致模型难以收敛。
探索-利用平衡：e_greedy策略的参数可能没有很好地平衡探索和利用，导致模型学习效率低下。
目标网络更新频率：目标网络更新的步长可能过大或过小，影响模型稳定性。
经验回放（Replay Buffer）：可能存在经验回放的策略问题，如样本多样性不足或样本更新不及时。
网络结构：神经网络的结构可能不适合当前问题，如层数、节点数设置不当。
损失函数：使用均方误差（MSE）作为损失函数可能不适合DQN，通常DQN使用Huber损失或均方误差损失的变体。
训练数据：训练数据可能存在问题，如数据不平衡或数据量不足。

问题解决方案

调整学习率：尝试不同的学习率，找到适合当前问题的最优学习率。
优化探索-利用策略：调整e_greedy参数，如降低e_greedy_decrement的值，以更慢地减少探索。
调整目标网络更新频率：尝试不同的更新步长，以提高模型稳定性。
改进经验回放机制：确保样本的多样性和及时更新。
调整网络结构：根据问题复杂度调整网络的层数和节点数。
选择更合适的损失函数：考虑使用Huber损失或其他适合DQN的损失函数。
增加训练数据：如果可能，增加训练数据的量和多样性。

提供代码

由于代码较长，这里提供一些关键的修改建议，而不提供完整的代码：

# 1. 调整学习率 optimizer=Adam(learning_rate=0.0003) # 6. 选择更合适的损失函数 model.compile(loss='huber', # 或者尝试其他适合DQN的损失函数 optimizer=optimizer) # 2. 优化探索-利用策略 self.e_greedy_decrement = 0.00005 # 根据需要调整 # 3. 调整目标网络更新频率 self.update_target_steps = 100 # 根据需要调整 # 5. 调整网络结构 # 根据问题复杂度，可能需要调整网络层数和节点数 model.add(layers.Dense(50, name='l1')) # 举例：增加节点数

代码运行方式

运行代码需要有Python环境，安装了必要的库，如numpy, tensorflow, matplotlib等。运行方式通常是在命令行或IDE中直接运行脚本。

代码预期运行结果

期望通过上述修改，DQN模型能够更好地收敛，并且模型效果有所提升。预期结果是模型能够在训练过程中逐步提高其预测的准确性，减少总的延迟时间（Total_tard）。

推荐相关链接

Deep Q-Network (DQN)
DQN with TensorFlow
Huber Loss
[Exploration-Exploitation in Reinforcement Learning](https://towardsdatascience.com/exploration-exploitation- trade-off-417b3943e0a9)
Replay Buffer in DQN
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

强化学习DQN:AttributeError: 'CartPoleEnv' object has no attribute 'seed' python pytorch 深度学习
2022-09-15 12:25

回答 2 已采纳你把gym换成0.25.2版本就行了。 pip install gym==0.25.2
如何快速掌握深度强化学习的各种算法，比如DQN，DDPG，PPO，SAC等等，并用Python准确实现呢？？ python pytorch 机器学习
2023-02-11 18:41

回答 1 已采纳以下答案引用自GPT-3大模型,请合理使用： ```想请问大神们，有没有比较好的资料或者指导方法，能够快速掌握深度强化学习的各种算法呢？首先，你需要理解深度强化学习的基本概念。然后，你可以通过阅读相
各位大神好，请帮我看看以下这个问题可以吗？解决不了 python
2021-02-07 19:15

回答 5 已采纳还有你循环中 table.col_values(5,0,row_num) 每次获取0到row_num行的列表，获取数据重复了啊。是不是应该改为 table.cell_value(row_nu
深度强化学习的常用算法——DQN，DDPG，PPO
2023-08-05 01:48

禅与计算机程序设计艺术的博客近几年，随着强化学习在各个领域的广泛应用，深度强化学习也逐渐成为学术界和工业界研究的热点话题。深度强化学习（Deep Reinforcement Learning）是基于机器学习和大数据等技术提出的一种新的机器学习方法。它利用...
运行roscore出现ModuleNotFoundError: No module named error linux
2022-11-09 15:31

回答 2 已采纳这是由于python版本过多导致的，打开终端第一行输入以下代码即可 !/user/bin/env python<你的版本ROS使用>
python用openpyxl保存excel时出现OSError: [Errno 9] Bad file descriptor，如何解决？ python
2022-08-11 21:07

回答 2 已采纳代码本身测试：这个代码在本地新建环境下使用是正常的错误解析： OSError: [Errno 9] Bad file descriptor Bad file descriptor 错误的文件描述符
mat 1 and mat2 shapes cannot be multiplied （1*4 and 6*50) python
2022-10-27 10:42

回答 1 已采纳是的，把6改成4
一切皆是映射：结合模型预测控制(MPC)与DQN的探索性研究
2024-06-28 01:25

禅与计算机程序设计艺术的博客一切皆是映射：结合模型预测控制(MPC)与DQN的探索性研究作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词：模型预测控制(MPC), DQN, 强化学习, 自适应控制, 动态系统建模
请各位大神帮帮忙,因为这是毕业论文所用的代码,我想问问到底是否是对的,看看是我代码错了,还是逻辑错了 python 人工智能有问必答机器学习
2021-03-15 15:12

回答 4 已采纳应该是没有读取进来数据。在getstate函数里，for循环没有运行，所以state是None。也可能len(block)刚好等于1，而你又用len(block)-1,所以循环没有进行。我不知道你是不
各位大神，想请各位帮我问一问，到底该如何将xlsx数据加入数组 python 有问必答机器学习
2021-03-18 10:05

回答 10 已采纳直接用pandas库来读就行 import pandas as pd data = pd.read_excel('文件名称',sheet_name='表单名称') stockData = list
神经网络能否不失一般性地解图的最短路径问题？机器学习神经网络
2018-12-12 04:37

回答 1 已采纳已找到，使用图网络模型可以实现。
强化学习分享（一） DQN算法原理及实现
2023-08-04 11:50

YWXonline的博客（一）强化学习算法介绍DQN，顾名思义，Deep Q Learning;在传统强化学习Q-Learning的基础之上，用深度学习的神经网络来拟合函Q值函数，从而达到更好的学习效果。强化学习入门：基本思想和经典算法 - 知乎 (zhihu.com...
Golang：xml解组无法正常工作 xml
2017-06-05 08:39

回答 1 已采纳 The problem here is that you are using attr where you shouldn't. You are treating the XMLEntry an
人工智能基础知识：计算机视觉、自然语言处理、机器学习、强化学习等技术简介
2023-08-05 01:34

禅与计算机程序设计艺术的博客对于人工智能领域的研究者而言，理解并掌握计算机视觉、自然语言处理、机器学习、强化学习等技术，是保持竞争力的一项关键技能。而这些技术在现实应用中也逐渐成为行业标准，各种领域都要面对这些技术才能更加高效地...
强化学习的一些基本概念和算法，以Python语言进行实践
2023-07-28 01:08

禅与计算机程序设计艺术的博客本课程内容主要围绕强化学习的一些基本概念和算法，以Python语言进行实践。Reinforcement Learning概述；2）强化学习的基本概念和术语；3）值函数逼近、策略梯度法等算法介绍；4）示例应用：雅达利游戏和网球比赛...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月16日

悬赏问题

¥20 找辅导初学者想实现一个项目没有方向
¥15 关于渗漏场的电场分布模拟
¥24 matlab怎么修改仿真初始时间
¥15 两分段线性回归模型分析阈值效应
¥15 前端和后端代码都没报错，但是点登录没反应的？
¥100 需要远程解决QSQLITE问题！
¥15 利用光场表达式画出初始光场强度分布图像等几个问题在这两个图片里
¥15 gozero求手把手教学，400一天
¥15 泥浆冲清水的泥浆分布
¥15 LASSO回归分析筛选关键基因，适合多大样本量？

DQN模型不收敛，目标求解也不好

2条回答 默认 最新

您想要解决的问题

问题出现原因

问题解决方案

提供代码

代码运行方式

代码预期运行结果

推荐相关链接

问题事件

悬赏问题

2条回答默认最新