tensorflow 2.x DQN无法收敛

最近看莫凡的强化学习课程，DQN部分莫凡使用的是tensorflow1.x 书写。我想着自己用tensorflow2.x写一遍，但发现训练很久都没有收敛。
有没有能帮忙分析下原因的，非常感谢


```python

import numpy as np
import pandas as pd
import tensorflow as tf
import tensorflow.keras as keras

class DeepQNetwork:
    def __init__(self, n_actions, n_features, learning_rate=0.01,
    reward_decay=0.9, e_greedy=0.9, replace_target_iter=300,
    memory_size=500, batch_size=64, e_greedy_increment=None):
        self.n_actions = n_actions
        self.n_features = n_features
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon_max = e_greedy
        self.replace_target_iter = replace_target_iter
        self.memory_size = memory_size
        self.batch_size = batch_size
        self.epsilon_increment = e_greedy_increment
        if e_greedy_increment is None:
            self.epsilon = self.epsilon_max
        else:
            self.epsilon = 0

        self.learn_step_counter = 0

        self.memory = np.zeros((self.memory_size, n_features*2+3))
        self.eval_net = self._build_net('eval_net')
        self.eval_net.compile(loss=keras.losses.MeanAbsoluteError(), optimizer=keras.optimizers.Adam(learning_rate=0.1), metrics=[keras.metrics.MeanAbsoluteError()])
        self.target_net = self._build_net('target_net')
        self.target_net.set_weights(self.eval_net.get_weights())
        self.early_stopping=keras.callbacks.EarlyStopping(monitor='loss', patience=10)

    def _build_net(self, name):
        net = keras.Sequential(name=name)
        net.add(keras.layers.Dense(32, activation='relu'))
        net.add(keras.layers.Dense(16, activation='relu'))
        net.add(keras.layers.Dense(self.n_actions))
        net.build((None, self.n_features))
        checkpoint = tf.train.Checkpoint(model=net)      
        checkpoint.restore(tf.train.latest_checkpoint('./save')) 
        return net
    
    def store_transition(self, s, a, r, done, s_):
        if not hasattr(self, 'memory_counter'):
            self.memory_counter = 0
        transition = np.hstack((s, [a, r, int(done)], s_))
        index = self.memory_counter % self.memory_size
        self.memory[index, :] = transition
        self.memory_counter += 1

    def choose_action(self, observation, train=True):
        observation = observation[np.newaxis, :]
        if train == False or np.random.uniform() < self.epsilon:
            actions_values = self.eval_net(observation)
            action = np.argmax(actions_values)
        else:
            action = np.random.choice(self.n_actions)
        return action

    def learn(self):
        if self.learn_step_counter % self.replace_target_iter == 0:
            self.target_net.set_weights(self.eval_net.get_weights())
        if self.memory_counter > self.memory_size:
            sample_index = np.random.choice(self.memory_size, size=self.batch_size)
        else:
            sample_index = np.random.choice(self.memory_counter, size=self.batch_size)
        batch_memory = self.memory[sample_index, :]
        
        q_eval = self.eval_net(batch_memory[:, :self.n_features])
        q_next = self.target_net(batch_memory[:, -self.n_features:])

        q_target = np.array(q_eval)
        for i in range(self.batch_size):
            action, reward, done = batch_memory[i, self.n_features], batch_memory[i, self.n_features+1], bool(batch_memory[i, self.n_features+2])
            action = int(action)
            max_q = np.max(q_next[i, :])
            if done:
                q_target[i, action] = q_eval[i, action] + self.lr * (reward - q_eval[i, action])
            else:
                q_target[i, action] = q_eval[i, action] + self.lr * (reward + self.gamma * max_q - q_eval[i, action])
        if hasattr(self, 'debug') == False:
            self.debug = True
            print('q_eval : \n', q_eval)
            print('q_target : \n', q_target)
        self.eval_net.fit(batch_memory[:, :self.n_features], q_target, batch_size=self.batch_size, epochs=10, verbose=0)

        if self.epsilon_increment is not None and self.epsilon < self.epsilon_max:
            print('increase e-greedy : %f\n' % self.epsilon)
            self.epsilon += self.epsilon_increment
        # print('e-greedy : %d\n' % self.epsilon)
        self.learn_step_counter += 1

    def save(self):
        checkpoint = tf.train.Checkpoint(model=self.eval_net)
        manager = tf.train.CheckpointManager(checkpoint, directory='./save', max_to_keep=1)
        path = manager.save(checkpoint_number=0)
        print('model save to %s \n' % path)

```

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

强化学习DQN:AttributeError: 'CartPoleEnv' object has no attribute 'seed' python pytorch 深度学习
2022-09-15 12:25

回答 2 已采纳你把gym换成0.25.2版本就行了。 pip install gym==0.25.2
请各位大神帮帮忙,因为这是毕业论文所用的代码,我想问问到底是否是对的,看看是我代码错了,还是逻辑错了 python 人工智能有问必答机器学习
2021-03-15 15:12

回答 4 已采纳应该是没有读取进来数据。在getstate函数里，for循环没有运行，所以state是None。也可能len(block)刚好等于1，而你又用len(block)-1,所以循环没有进行。我不知道你是不
如何快速掌握深度强化学习的各种算法，比如DQN，DDPG，PPO，SAC等等，并用Python准确实现呢？？ python pytorch 机器学习
2023-02-11 18:41

回答 1 已采纳以下答案引用自GPT-3大模型,请合理使用： ```想请问大神们，有没有比较好的资料或者指导方法，能够快速掌握深度强化学习的各种算法呢？首先，你需要理解深度强化学习的基本概念。然后，你可以通过阅读相
精通 TensorFlow 1.x：11~15
2023-04-15 21:49

绝不原创的飞龙的博客原文：Mastering TensorFlow 1.x 协议：CC BY-NC-SA 4.0 译者：飞龙本文来自【ApacheCN 深度学习译文集】，采用译后编辑（MTPE）流程来尽可能提升效率。不要担心自己的形象，只关心如何实现目标。——《原则》，...
mat 1 and mat2 shapes cannot be multiplied （1*4 and 6*50) python
2022-10-27 10:42

回答 1 已采纳是的，把6改成4
Golang：xml解组无法正常工作 xml
2017-06-05 08:39

回答 1 已采纳 The problem here is that you are using attr where you shouldn't. You are treating the XMLEntry an
运行roscore出现ModuleNotFoundError: No module named error linux
2022-11-09 15:31

回答 2 已采纳这是由于python版本过多导致的，打开终端第一行输入以下代码即可 !/user/bin/env python<你的版本ROS使用>
TensorFlow 1.x 深度学习秘籍：6~10
2023-04-15 21:28

绝不原创的飞龙的博客原文：TensorFlow 1.x Deep Learning Cookbook 协议：CC BY-NC-SA 4.0 译者：飞龙本文来自【ApacheCN 深度学习译文集】，采用译后编辑（MTPE）流程来尽可能提升效率。不要担心自己的形象，只关心如何实现目标。...
python用openpyxl保存excel时出现OSError: [Errno 9] Bad file descriptor，如何解决？ python
2022-08-11 21:07

回答 2 已采纳代码本身测试：这个代码在本地新建环境下使用是正常的错误解析： OSError: [Errno 9] Bad file descriptor Bad file descriptor 错误的文件描述符
各位大神好，请帮我看看以下这个问题可以吗？解决不了 python
2021-02-07 19:15

回答 5 已采纳还有你循环中 table.col_values(5,0,row_num) 每次获取0到row_num行的列表，获取数据重复了啊。是不是应该改为 table.cell_value(row_nu
各位大神，想请各位帮我问一问，到底该如何将xlsx数据加入数组 python 有问必答机器学习
2021-03-18 10:05

回答 10 已采纳直接用pandas库来读就行 import pandas as pd data = pd.read_excel('文件名称',sheet_name='表单名称') stockData = list
强化学习 8 —— DQN 代码 Tensorflow 2.0 实现
2020-08-10 14:57

jsfantasy的博客在上一篇文章强化学习——DQN介绍中我们详细介绍了DQN 的来源，以及对于强化学习难以收敛的问题DQN算法提出的两个处理方法：经验回放和固定目标值。这篇文章我们就用代码来实现 DQN 算法一、环境介绍 1、Gym 介绍 ...
神经网络能否不失一般性地解图的最短路径问题？机器学习神经网络
2018-12-12 04:37

回答 1 已采纳已找到，使用图网络模型可以实现。
用Tensorflow Agents实现强化学习DQN
2021-12-26 22:15

gzroy的博客在我之前的博客中强化学习笔记(4)-深度Q学习_gzroy的博客-CSDN博客...Tensorflow网上的DQN教程是解决CartPole问题的，如果直接照搬这个代码来解决小车上山问题，则会发现模型无法收敛。经过一番研究，我发现原来是在ag
一切皆是映射：理解DQN的稳定性与收敛性问题
2024-05-22 02:32

光剑书架上的书的博客一切皆是映射：理解DQN的稳定性与收敛性问题作者：禅与计算机程序设计艺术 1. 背景介绍 1.1 强化学习的兴起与挑战近年来，强化学习 (Reinforcement Learning, RL) 作为机器学
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月9日

悬赏问题

¥15 vs code配置c语言遇到这个问题
¥15 vscode调试编译找不到gcc，只有cl，但是检查cmd是对的，控制面板的路径也更改了
¥20 access中怎么分割分别获取一下图中的值
¥15 keras_tcn已经安装成功，还是显示ModuleNotFoundError: No module named 'keras_tcn'
¥15 ENVI高分五号去除云层的方法
¥15 16进制数据如何得到奇偶校验位
¥15 求合并两个字节流VB6代码
¥15 Pyqt 如何正确的关掉Qthread，并且释放其中的锁？
¥30 网站服务器通过node.js部署了一个项目！前端访问失败
¥15 WPS访问权限不足怎么解决

tensorflow 2.x DQN无法收敛

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新