关于使用深度强化学习Actor-Critic算法玩gym库中CartPole游戏不收敛的问题，高分悬赏。

小弟最近在自学深度强化学习，看的莫烦大佬的视频。其中有一个用AC算法玩gym库中CartPole的游戏实例，自己写的代码不知为何不能够收敛。考虑到自己自己写的程序中将AC网络写到一个类里去了，尝试过在A网络训练时截断C网络的梯度反向传播防止干扰，但还是不收敛。
小弟小白初学者自己瞎琢磨的，实在找不出原因，高分悬赏，希望大佬们能解惑。代码如下，其中有两个文件，一个是用以运行的主程序，另一个是主程序要调用的类，大佬们跑一下试试。
另外，真心诚意提问，请勿复制粘贴答非所问。

########主程序：AC_RL_run_this##########

import gym
from AC_RL_brain import ACNetwork


def run_game():
    step = 0
    for episode in range(100000):
        episode_reward = 0
        observation = env.reset()
        while True:
            if episode_reward > 20:
                env.render()
            action = RL.choose_action(observation)
            observation_, reward, done, _ = env.step(action)
            if done:
                reward = -20
            RL.C_learn(observation, reward, observation_)
            RL.A_learn(observation, action)
            episode_reward += reward
            if done:
                break
            observation = observation_
            step += 1
        print('%d回合总回报：%f' % (episode, episode_reward))
    print('game over')
    env.close()


if __name__ == '__main__':
    env = gym.make('CartPole-v0')
    env.seed(1)
    RL = ACNetwork(
        n_actions=env.action_space.n,
        n_features=env.observation_space.shape[0],
        gamma=0.95,
        A_lr=0.001,
        C_lr=0.01,
    )
    run_game()

########需要调用的类：AC_RL_brain##########

import tensorflow as tf
import numpy as np


np.random.seed(2)
tf.set_random_seed(2)  # reproducible


class ACNetwork:
    def __init__(
            self,
            n_actions,
            n_features,
            gamma,
            A_lr,
            C_lr,
    ):
        self.n_actions = n_actions
        self.n_features = n_features
        self.gamma = gamma
        self.A_lr = A_lr
        self.C_lr = C_lr
        self.td_error_real = 0
        self._build_net()
        self.sess = tf.Session()
        self.sess.run(tf.global_variables_initializer())

    def _build_net(self):
        # placeholder
        self.s = tf.placeholder(tf.float32, [1, self.n_features], "state")
        self.v_ = tf.placeholder(tf.float32, [1, 1], "v_next")
        self.r = tf.placeholder(tf.float32, None, 'r')
        self.a = tf.placeholder(tf.int32, None, "act")

        # A_net
        l1_A = tf.layers.dense(
            inputs=self.s,
            units=20,  # number of hidden units
            activation=tf.nn.relu,
            kernel_initializer=tf.random_normal_initializer(0., .1),  # weights
            bias_initializer=tf.constant_initializer(0.1),  # biases
        )

        self.acts_prob = tf.layers.dense(
            inputs=l1_A,
            units=self.n_actions,  # output units
            activation=tf.nn.softmax,  # get action probabilities
            kernel_initializer=tf.random_normal_initializer(0., .1),  # weights
            bias_initializer=tf.constant_initializer(0.1),  # biases
        )

        self.log_prob = tf.log(self.acts_prob[0, self.a])
        self.exp_v = tf.reduce_mean(self.log_prob * self.td_error_real)  # advantage (TD_error) guided loss
        self.train_op_A = tf.train.AdamOptimizer(self.A_lr).minimize(-self.exp_v)  # minimize(-exp_v) = maximize(exp_v)

        # C_net
        l1_C = tf.layers.dense(
            inputs=self.s,
            units=20,  # number of hidden units
            activation=tf.nn.relu,  # None
            # have to be linear to make sure the convergence of actor.
            # But linear approximator seems hardly learns the correct Q.
            kernel_initializer=tf.random_normal_initializer(0., .1),  # weights
            bias_initializer=tf.constant_initializer(0.1),  # biases
        )

        self.v = tf.layers.dense(
            inputs=l1_C,
            units=1,  # output units
            activation=None,
            kernel_initializer=tf.random_normal_initializer(0., .1),  # weights
            bias_initializer=tf.constant_initializer(0.1),  # biases
        )

        self.td_error = self.r + self.gamma * self.v_ - self.v
        self.loss = tf.square(self.td_error)  # TD_error = (r+gamma*V_next) - V_eval
        self.train_op_C = tf.train.AdamOptimizer(self.C_lr).minimize(self.loss)

    def choose_action(self, s):
        s = s[np.newaxis, :]
        probs = self.sess.run(self.acts_prob, {self.s: s})  # get probabilities for all actions
        return np.random.choice(np.arange(probs.shape[1]), p=probs.ravel())  # return a int

    def A_learn(self, s, a):
        s = s[np.newaxis, :]
        feed_dict = {self.s: s, self.a: a}
        _, exp_v = self.sess.run([self.train_op_A, self.exp_v], feed_dict)

    def C_learn(self, s, r, s_):
        s, s_ = s[np.newaxis, :], s_[np.newaxis, :]
        v_ = self.sess.run(self.v, {self.s: s_})
        self.td_error_real, _ = self.sess.run([self.td_error, self.train_op_C],
                                    {self.s: s, self.v_: v_, self.r: r})

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

蔡能教授，网站特聘专家 2019-08-21 14:56

关注

class Brain:
def init(self):
self.params = {}
self.model, self.trainer, self.loss = self._create()

def _create(self):
    observation = C.sequence.input_variable(n_state, np.float32, name='s')
    q_target = C.sequence.input_variable(n_action, np.float32, name='q')

    l1 = C.layers.Dense(hidden_size, activation=C.relu)
    l2 = C.layers.Dense(n_action)
    unbound_model = C.layers.Sequential([l1, l2])
    self.model = unbound_model(observation)

    self.params = dict(W1=l1.W, b1=l1.b, W2=l2.W, b2=l2.b)

    self.loss = C.reduce_mean(C.square(self.model-q_target), axis=0)
    meas = C.reduce_mean(C.square(self.model-q_target), axis=0)

    lr_schedule = C.learning_rate_schedule(learning_rate, C.UnitType.minibatch)
    learner = C.sgd(self.model.parameters,
                    lr_schedule,
                    gradient_clipping_threshold_per_sample=10)

    progress_printer = C.logging.ProgressPrinter(500)
    self.trainer = C.Trainer(self.model, (self.loss, meas), learner, progress_printer)

    return self.model, self.trainer, self.loss

def train(self, x, y):
    arguments = dict(zip(self.loss.arguments, [x,y]))
    updated, results = self.trainer.train_minibatch(arguments, outputs=[self.loss.output])

def predict(self, s):
    return self.model.eval([s])

class Memory: # stored as ( s, a, r, s_ )
samples = []

def __init(self):
    pass

def add(self, sample):
    self.samples.append(sample)

def sample(self, n):
    n = min(n, len(self.samples))
    return random.sample(self.samples, n)

class Agent:
steps = 0
epsilon = max_epsilon

def __init__(self):
    self.brain = Brain()
    self.memory = Memory()

def act(self, s):
    if random.random() < self.epsilon:
        return random.randint(0, n_action-1)
    else:
        return np.argmax(self.brain.predict(s))

def observe(self, sample): # in (s, a, r, s_) format
    self.memory.add(sample)
    self.steps += 1
    self.epsilon = min_epsilon + (max_epsilon - min_epsilon) * math.exp(-epsilon_decay * self.steps)

def replay(self):
    batch = self.memory.sample(batch_size)

    no_state = np.zeros(n_state)

    states = np.array([ o[0] for o in batch ], dtype=np.float32)
    states_ = np.array([ (no_state if o[3] is None else o[3]) for o in batch ], dtype=np.float32)

    p = self.brain.predict(states)
    p_ = self.brain.predict((states_))

    x = np.zeros((len(batch), n_state)).astype(np.float32)
    y = np.zeros((len(batch), n_action)).astype(np.float32)

    for i in range(len(batch)):
        s, a, r, s_ = batch[i]

        t = p[0][i] # CNTK: [0] because of sequence dimension
        if s_ is None:
            t[a] = r
        else:
            t[a] = r + reward_discount * np.amax(p_[0][i])

        x[i] = s
        y[i] = t

    self.brain.train(x, y)

def run(agent):
s = env.reset()
R = 0

while True:
    env.render()

    a = agent.act(s.astype(np.float32))
    s_, r, done, info = env.step(a)

    if done:
        s_ = None

    agent.observe((s, a, r, s_))
    agent.replay()

    s = s_
    R += r

    if done:
        return R

agent = Agent()

epoch = 0
reward_sum = 0
while epoch < 30000:
reward = run(agent)
reward_sum += reward
epoch += 1
if epoch % epoch_baseline == 0:
print('Epoch %d, average reward is %f, memory size is %d'
% (epoch, reward_sum / epoch_baseline, len(agent.memory.samples)))

    if reward_sum / epoch_baseline > reward_target:
        print('Task solved in %d epoch' % epoch)
        break

    reward_sum = 0

报告相同问题？

关注问题

强化学习中，对于连续状态空间和高维动作空间，采用什么方法？深度学习
2021-07-22 22:04

回答 1 已采纳分层强化学习
VS2017调试vtk程序提示找不到vtkRenderingOpenGL2-8.2.dll，无法继续执行代码 c++ 人工智能机器学习深度学习神经网络
2020-08-06 10:59

回答 2 已采纳 https://blog.csdn.net/dayuhaitang1/article/details/105446969
A2C模型训练不收敛 pytorch 机器学习神经网络
2022-06-17 01:14

回答 1 已采纳学习率调低点看看
强化学习之policy-based方法REFORCEMENT实现（PyTorch）
2020-12-26 20:25

Ton10的博客强化学习可以根据是否直接输出动作分为value-based和policy-based方法。前者根据预测和控制求出最优值函数（V或Q），然后通常取贪心策略来得出最优动作，后者直接一些，他直接输出动作，即policy-based。 value-...
我利用torch搭建了一个神经网络但是需要神经网络的输出控制在0-1之间训练后发生了梯度消失 python 人工智能神经网络
2021-04-25 02:16

回答 1 已采纳 1. 把loss函数也放出来看看 2. 先把中间的sigmoid改成Relu（或者其他变种），最后一层使用sigmoid
java中JDBC连接数据库遇到问题 java
2023-03-13 13:33

回答 4 已采纳数据库字符集编码是什么格式呢，连接后边加个编码格式试试 characterEncoding=utf-8什么的
神经网络输出多维向量的值都一样是什么问题呀 python 机器学习神经网络
2023-02-19 11:33

回答 2 已采纳检查输入数据是否正确：确保您的输入数据已经被正确地预处理和标准化，使其能够适应网络的要求。还要确保您的输入数据与您的问题域相匹配。检查网络结构：确认您的神经网络结构是否正确并满足您的问题要求。特别是
使用DDPG算法实现cartpole 100万次不倒
2020-09-03 09:53

从长计议88的博客 DDPG的全称是Deep Deterministic Policy Gradient,一种Actor Critic机器增强学习方法。 CartPole是http://gym.openai.com/envs/CartPole-v0/ 这个网站提供的一个杆子不倒的测试环境。 CartPole环境返回一个状态包括...
如何解决pygame背景图显示不全的问题 pygame
2022-08-05 23:32

回答 1 已采纳少定义了update()函数加一个def update(): pass
HTTP处理程序中actor模式的好处
2018-03-17 21:48

回答 1 已采纳 The benefits are not to a single call but to the sum of all calls. For example you can use this t
带SQL Server的PHP（请不要使用MySQL） - 在WHERE子句中选择带有LIKE的语句 php sql
2016-03-01 05:12

回答 1 已采纳 You check form input values through $_REQUEST['lname'] and then assign a variable $lname = (string
详解DDPG算法：解决对大量的超参数、随机重启、任务环境敏感问题，完成月球着陆器，双足机器人demo、以及超参数调优教学
2023-07-15 10:05

汀、人工智能的博客详解DDPG算法：解决对大量的超参数、随机重启、任务环境敏感问题，完成月球着陆器，双足机器人demo、以及超参数调优教学
如何使用MySQL中的关系将文本字符串批量转换为唯一ID database mysql php
2017-06-22 16:48

回答 1 已采纳 Something like this will sort of work: For each record Do Select from genre table usi
强化学习之迷宫Q-Learning实践笔记——入门篇
2021-01-12 18:51

肖永威的博客我们以走迷宫小游戏为例开始学习深度学习，迷宫样例原型来自“莫烦PYTHON”，系统的梳理强化学习和Q-learning基础知识，并结合代码实践跟踪行为轨迹和Q-Table。
python全局解释器锁 tensorflow_TensorFlow利用A3C算法训练智能体玩CartPole游戏
2020-12-10 13:58

weixin_40009207的博客研究人员使用 tf.keras、OpenAI 训练了一个使用「异步优势动作评价」(Asynchronous Advantage Actor Critic，A3C)算法的智能体，通过 A3C 的实现解决了 CartPole 游戏问题，过程中使用了贪婪执行、模型子类和自定义...
莫烦强化学习-简介
2021-11-23 12:05

醉一心的博客强化学习是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试, 累积经验, 学习经验。 1.1 什么是强化...
没有解决我的问题, 去提问

悬赏问题

¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

码龄粉丝数原力等级 --

关于使用深度强化学习Actor-Critic算法玩gym库中CartPole游戏不收敛的问题，高分悬赏。

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

关于使用深度强化学习Actor-Critic算法玩gym库中CartPole游戏不收敛的问题，高分悬赏。

1条回答 默认 最新

悬赏问题

1条回答默认最新