这段代码是训练dqn的·代码，请问我该如何保存训练好的模型，并且调用模型预测，训练和预测的输入参数都是J_num, M_num, O_num, J, Processing_time, D, A

这段代码是训练dqn的·代码，请问我该如何保存训练好的模型，并且调用模型预测，训练和预测的输入参数都是J_num, M_num, O_num, J, Processing_time, D, A。怎么传入这些参数


import numpy as np
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "-1" #设置环境变量，以便在运行时仅使用CPU，而不是GPU
import random
from collections import deque
from tensorflow.keras import layers,models
import tensorflow as tf
from Job_Shop import Situation
from tensorflow.keras.optimizers import Adam
from Instance_Generator import Processing_time,A,D,M_num,Op_num,J,O_num,J_num
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False  # 用来正常显示负号


'''
回放Memory处应该有点问题。需要改一下。

'''


class DQN:
    def __init__(self,):
        self.Hid_Size = 30

        # ------------Hidden layer=5   30 nodes each layer--------------
        model = models.Sequential()
        model.add(layers.Input(shape=(7,)))
        model.add(layers.Dense(self.Hid_Size, name='l1'))
        model.add(layers.Dense(self.Hid_Size, name='l2'))
        model.add(layers.Dense(self.Hid_Size, name='l3'))
        model.add(layers.Dense(self.Hid_Size, name='l4'))
        model.add(layers.Dense(self.Hid_Size, name='l5'))
        model.add(layers.Dense(6, name='l6'))
        model.compile(loss='mse',
                      optimizer=Adam(learning_rate=0.001))
        # # model.summary()
        self.model = model

        #------------Q-network Parameters-------------
        self.act_dim=[1,2,3,4,5,6]                        #神经网络的输出节点
        self.obs_n=[0,0,0,0,0,0,0]                            #神经网路的输入节点
        self.gama = 0.95  # γ经验折损率
        # self.lr = 0.001  # 学习率
        self.global_step = 0
        self.update_target_steps = 200  # 更新目标函数的步长
        self.target_model = self.model

        #-------------------Agent-------------------
        self.e_greedy=0.6
        self.e_greedy_decrement=0.0001
        self.L=2         #Number of training episodes L 训练集数!!!!40 


        #---------------Replay Buffer---------------
        self.buffer=deque(maxlen=2000)
        self.Batch_size=10       # Batch Size of Samples to perform gradient descent

    def replace_target(self):
        self.target_model.get_layer(name='l1').set_weights(self.model.get_layer(name='l1').get_weights())
        self.target_model.get_layer(name='l2').set_weights(self.model.get_layer(name='l2').get_weights())
        self.target_model.get_layer(name='l3').set_weights(self.model.get_layer(name='l3').get_weights())
        self.target_model.get_layer(name='l4').set_weights(self.model.get_layer(name='l4').get_weights())
        self.target_model.get_layer(name='l5').set_weights(self.model.get_layer(name='l5').get_weights())
        self.target_model.get_layer(name='l6').set_weights(self.model.get_layer(name='l6').get_weights())

    def replay(self):
        if self.global_step % self.update_target_steps == 0:
            self.replace_target()
        # replay the history and train the modelUC1.#回放历史并训练模型

        minibatch = random.sample(self.buffer, self.Batch_size)
        for state, action, reward, next_state, done in minibatch:
            target = reward
            if not done:
                k=self.target_model.predict(next_state)
                target = (reward + self.gama *
                          np.argmax(self.target_model.predict(next_state)))
            target_f = self.model.predict(state)
            target_f[0][action] = target
            self.model.fit(state, target_f, epochs=1, verbose=0)
        self.global_step += 1

    def Select_action(self,obs):
        # obs=np.expand_dims(obs,0)
        if random.random()<self.e_greedy:
            act=random.randint(0,5)
        else:
            act=np.argmax(self.model.predict(obs))
        self.e_greedy = max(
            0.01, self.e_greedy - self.e_greedy_decrement)  # 随着训练逐步收敛，探索的程度慢慢降低
        return act

    def _append(self, exp):
        self.buffer.append(exp)

    def main(self,J_num, M_num, O_num, J, Processing_time, D, A):
        k = 0
        x=[]
        Total_tard=[]
        TR=[]
        for i in range(self.L):
            Total_reward = 0
            x.append(i+1)
            print('-----------------------开始第',i+1,'次训练------------------------------')
            obs=[0 for i in range(7)]
            obs = np.expand_dims(obs, 0)
            done=False
            Sit = Situation(J_num, M_num, O_num, J, Processing_time, D, A)
            for i in range(O_num):
                k+=1
                # print(obs)
                at=self.Select_action(obs)
                # print(at)
                if at==0:
                    at_trans=Sit.rule1()
                if at==1:
                    at_trans=Sit.rule2()
                if at==2:
                    at_trans=Sit.rule3()
                if at==3:
                    at_trans=Sit.rule4()
                if at==4:
                    at_trans=Sit.rule5()
                if at==5:
                    at_trans=Sit.rule6()
                # at_trans=self.act[at]
                print('这是第',i,'道工序>>','执行action:',at,' ','将工件',at_trans[0],'安排到机器',at_trans[1])
                Sit.scheduling(at_trans)
                obs_t=Sit.Features()
                if i==O_num-1:
                    done=True
                #obs = obs_t
                obs_t = np.expand_dims(obs_t, 0)
                # obs = np.expand_dims(obs, 0)
                # print(obs,obs_t)
                r_t = Sit.reward(obs[0][6],obs[0][5],obs_t[0][6],obs_t[0][5],obs[0][0],obs_t[0][0])
                self._append((obs,at,r_t,obs_t,done))
                if k>self.Batch_size:
                    # batch_obs, batch_action, batch_reward, batch_next_obs,done= self.sample()
                    self.replay()
                Total_reward+=r_t
                obs=obs_t
            total_tadiness=0
            Job=Sit.Jobs
            E=0
            K=[i for i in range(len(Job))]
            End=[]
            for Ji in range(len(Job)):
                End.append(max(Job[Ji].End))
                if max(Job[Ji].End)>D[Ji]:
                    total_tadiness+=abs(max(Job[Ji].End)-D[Ji])
            print('<<<<<<<<<-----------------total_tardiness总延迟:',total_tadiness,'------------------->>>>>>>>>>')
            Total_tard.append(total_tadiness)
            print('<<<<<<<<<-----------------reward奖励:',Total_reward,'------------------->>>>>>>>>>')
            TR.append(Total_reward)
            plt.plot(K,End,color='y') #绘制每个工件的结束时间，黄色
            plt.plot(K,D,color='r') #绘制每个工件的交货期，红色
            #plt.show() #显示绘制的图形
            plt.savefig("第%d次训练.png" % (i+1))
            plt.clf() #清楚当前绘画，以防下次迭代叠加到后续图形上
        plt.plot(x,Total_tard)
        plt.xlabel(u'训练步数', fontsize=14, color='r')# x,y坐标轴名称设置,可以同时设置标签的字体大小颜色等
        plt.ylabel(u'总延迟时间', fontsize=14, color='b')
        plt.title(u"DQN在每个训练步骤中获得的总延迟时间", fontsize=14, color='k') # 设置图形标题
        plt.savefig('总延迟.png')
        plt.show()
        return Total_reward


d=DQN()
d.main(J_num, M_num, O_num, J, Processing_time, D, A)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
GISer Liu 2024-05-08 16:16
关注
该回答引用自GPT-3.5,由博主GISer Liu编写：

要保存训练好的模型并调用它进行预测，你需要在你的代码中添加一些功能。首先，你需要修改你的 main
函数以便在训练结束后保存模型。其次，你需要添加一个函数来加载保存的模型进行预测。
下面是你需要修改的部分：

1. 保存训练好的模型

在你的 main 函数中，当训练结束后，添加保存模型的功能。你可以使用 TensorFlow 的 save 方法来保存模型。
python
Copy code

def main(self,J_num, M_num, O_num, J, Processing_time, D, A): # 训练代码 # ... # 训练结束后保存模型 self.model.save("dqn_model.h5")

2. 加载保存的模型进行预测

添加一个函数来加载保存的模型，并使用它进行预测。
python
Copy code

def load_model(self, model_path): self.model = models.load_model(model_path) def predict(self, input_data): # 加载保存的模型 self.load_model("dqn_model.h5") # 进行预测 prediction = self.model.predict(input_data) return prediction

3. 调用预测函数

在你的代码中调用 predict 函数来进行预测。
python
Copy code

# 在 main 函数中添加调用预测函数的代码示例 def main(self,J_num, M_num, O_num, J, Processing_time, D, A): # 训练代码 # ... # 调用预测函数 prediction = self.predict(input_data) # 处理预测结果 # ...

这样，当你的训练结束后，模型就会保存在当前目录下的 dqn_model.h5 文件中。你可以在需要预测时加载这个模型，并使用 predict 函数进行预测。

如果该回答解决了您的问题，请采纳！如果没有，请私信联系或评论您的疑惑
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

请各位大神帮帮忙,因为这是毕业论文所用的代码,我想问问到底是否是对的,看看是我代码错了,还是逻辑错了 python 人工智能有问必答机器学习
2021-03-15 15:12

回答 4 已采纳应该是没有读取进来数据。在getstate函数里，for循环没有运行，所以state是None。也可能len(block)刚好等于1，而你又用len(block)-1,所以循环没有进行。我不知道你是不
各位大神好，请帮我看看以下这个问题可以吗？解决不了 python
2021-02-07 19:15

回答 5 已采纳还有你循环中 table.col_values(5,0,row_num) 每次获取0到row_num行的列表，获取数据重复了啊。是不是应该改为 table.cell_value(row_nu
强化学习DQN:AttributeError: 'CartPoleEnv' object has no attribute 'seed' python pytorch 深度学习
2022-09-15 12:25

回答 2 已采纳你把gym换成0.25.2版本就行了。 pip install gym==0.25.2
【深度强化学习】(2) Double DQN 模型解析，附Pytorch完整代码
2023-03-10 20:43

立Sir的博客 Double DQN 算法是 DQN ...在 Double DQN 框架中存在两个神经网络模型，分别是训练网络与目标网络。这两个神经网络模型的结构完全相同，但是权重参数不同；每训练一段之间后，训练网络的权重参数才会复制给目标网络。
各位大神，想请各位帮我问一问，到底该如何将xlsx数据加入数组 python 有问必答机器学习
2021-03-18 10:05

回答 10 已采纳直接用pandas库来读就行 import pandas as pd data = pd.read_excel('文件名称',sheet_name='表单名称') stockData = list
如何快速掌握深度强化学习的各种算法，比如DQN，DDPG，PPO，SAC等等，并用Python准确实现呢？？ python pytorch 机器学习
2023-02-11 18:41

回答 1 已采纳以下答案引用自GPT-3大模型,请合理使用： ```想请问大神们，有没有比较好的资料或者指导方法，能够快速掌握深度强化学习的各种算法呢？首先，你需要理解深度强化学习的基本概念。然后，你可以通过阅读相
python用openpyxl保存excel时出现OSError: [Errno 9] Bad file descriptor，如何解决？ python
2022-08-11 21:07

回答 2 已采纳代码本身测试：这个代码在本地新建环境下使用是正常的错误解析： OSError: [Errno 9] Bad file descriptor Bad file descriptor 错误的文件描述符
在TensorFlow中保存已经训练好的神经网络模型
2016-01-27 14:08

白马负金羁的博客通常训练一个具有一定实用价值的深度神经网络都是非常消耗计算时间的。所以在使用时，最好的方法是导入已经训练好的模型，重用它，而不是每次都...本文就主要介绍在TensorFlow中如何保存和导入已经训练好的神经网络模型
运行roscore出现ModuleNotFoundError: No module named error linux
2022-11-09 15:31

回答 2 已采纳这是由于python版本过多导致的，打开终端第一行输入以下代码即可 !/user/bin/env python<你的版本ROS使用>
mat 1 and mat2 shapes cannot be multiplied （1*4 and 6*50) python
2022-10-27 10:42

回答 1 已采纳是的，把6改成4
神经网络能否不失一般性地解图的最短路径问题？机器学习神经网络
2018-12-12 04:37

回答 1 已采纳已找到，使用图网络模型可以实现。
DQN(Deep Q Network)及其代码实现
2021-08-18 20:46

LuKaiNotFound的博客为什么需要DQN 我们知道，最原始的Q-learning算法在执行过程中始终需要一个Q表进行记录，当维数不高时Q表尚可满足需求，但当遇到指数级别的维数时，Q表的效率就显得十分有限。因此，我们考虑一种值函数近似的方法，...
Golang：xml解组无法正常工作 xml
2017-06-05 08:39

回答 1 已采纳 The problem here is that you are using attr where you shouldn't. You are treating the XMLEntry an
ChatGPT 使用拓展资料：强化学习DQN 单模型、双模型、DoubleDQN、DuelingDQN
2023-03-26 20:46

段智华的博客 ChatGPT 使用拓展资料：强化学习DQN 单模型、双模型。
强化学习DQN、DDQN和Dueling DQN的原理介绍与PARL核心代码解析
2020-07-23 00:19

秋水中的鱼的博客本文主要介绍DQN算法的基本原理，以及在它基础上改进的DDQN和Dueling DQN，介绍完后会结合对应的PARL代码进行解析说明（PARL 是一个高性能、灵活的强化学习框架）。三篇相关的论文地址如下，接下去的三个小节会围绕...
没有解决我的问题, 去提问