强化学习DQN:AttributeError: 'CartPoleEnv' object has no attribute 'seed'

运行动手学强化学习中DQN算法时出现问题，求帮助啊

import random
import gym
import numpy as np
import collections
from tqdm import tqdm
import torch
import torch.nn.functional as F
import matplotlib.pyplot as plt
import rl_utils


class ReplayBuffer:
    ''' 经验回放池 '''

    def __init__(self, capacity):
        self.buffer = collections.deque(maxlen=capacity)  # 队列,先进先出

    def add(self, state, action, reward, next_state, done):  # 将数据加入buffer
        self.buffer.append((state, action, reward, next_state, done))

    def sample(self, batch_size):  # 从buffer中采样数据,数量为batch_size
        # random.sample(x,size) 随机截取列表x指定size长度，顺序不变
        transitions = random.sample(self.buffer, batch_size)
        # transitions 包含很多transition，而transition中又包含state, action, reward, next_state, done
        # *transitions 是将transition的参数解包出来state, action, reward, next_state, done
        # zip(*transitions)是将属于一种属性的封装在一起，如所有state(s1,s2,s3,...)
        state, action, reward, next_state, done = zip(*transitions)
        return np.array(state), action, reward, np.array(next_state), done

    def size(self):  # 目前buffer中数据的数量
        return len(self.buffer)


class Qnet(torch.nn.Module):
    ''' 只有一层隐藏层的Q网络 '''

    def __init__(self, state_dim, hidden_dim, action_dim):
        super(Qnet, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, action_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))  # 隐藏层使用ReLU激活函数
        return self.fc2(x)


class DQN:
    ''' DQN算法 '''

    def __init__(self, state_dim, hidden_dim, action_dim, learning_rate, gamma,
                 epsilon, target_update, device):
        self.action_dim = action_dim
        self.q_net = Qnet(state_dim, hidden_dim,
                          self.action_dim).to(device)  # Q网络
        # 目标网络
        self.target_q_net = Qnet(state_dim, hidden_dim,
                                 self.action_dim).to(device)
        # 使用Adam优化器
        self.optimizer = torch.optim.Adam(self.q_net.parameters(),
                                          lr=learning_rate)
        self.gamma = gamma  # 折扣因子
        self.epsilon = epsilon  # epsilon-贪婪策略
        self.target_update = target_update  # 目标网络更新频率
        self.count = 0  # 计数器,记录更新次数
        self.device = device

    def take_action(self, state):  # epsilon-贪婪策略采取动作
        if np.random.random() < self.epsilon:
            action = np.random.randint(self.action_dim)
        else:
            state = torch.tensor([state], dtype=torch.float).to(self.device)
            action = self.q_net(state).argmax().item()
        return action

    def update(self, transition_dict):
        states = torch.tensor(transition_dict['states'],
                              dtype=torch.float).to(self.device)
        actions = torch.tensor(transition_dict['actions']).view(-1, 1).to(
            self.device)
        rewards = torch.tensor(transition_dict['rewards'],
                               dtype=torch.float).view(-1, 1).to(self.device)
        next_states = torch.tensor(transition_dict['next_states'],
                                   dtype=torch.float).to(self.device)
        dones = torch.tensor(transition_dict['dones'],
                             dtype=torch.float).view(-1, 1).to(self.device)

        q_values = self.q_net(states).gather(1, actions)  # Q值
        # 下个状态的最大Q值
        max_next_q_values = self.target_q_net(next_states).max(1)[0].view(
            -1, 1)
        q_targets = rewards + self.gamma * max_next_q_values * (1 - dones
                                                                )  # TD误差目标
        dqn_loss = torch.mean(F.mse_loss(q_values, q_targets))  # 均方误差损失函数
        self.optimizer.zero_grad()  # PyTorch中默认梯度会累积,这里需要显式将梯度置为0
        dqn_loss.backward()  # 反向传播更新参数
        self.optimizer.step()

        if self.count % self.target_update == 0:
            self.target_q_net.load_state_dict(
                self.q_net.state_dict())  # 更新目标网络
        self.count += 1


lr = 2e-3
num_episodes = 500
hidden_dim = 128
gamma = 0.98
epsilon = 0.01
target_update = 10
buffer_size = 10000
minimal_size = 500
batch_size = 64
device = torch.device("cuda") if torch.cuda.is_available() else torch.device(
    "cpu")

env_name = 'CartPole-v1'
env = gym.make(env_name)
random.seed(0)
np.random.seed(0)
env.seed(0)
torch.manual_seed(0)
replay_buffer = ReplayBuffer(buffer_size)
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n
agent = DQN(state_dim, hidden_dim, action_dim, lr, gamma, epsilon,
            target_update, device)

return_list = []
for i in range(10):
    with tqdm(total=int(num_episodes / 10), desc='Iteration %d' % i) as pbar:
        for i_episode in range(int(num_episodes / 10)):
            episode_return = 0
            state = env.reset()
            done = False
            while not done:
                action = agent.take_action(state)
                next_state, reward, done, _ = env.step(action)
                replay_buffer.add(state, action, reward, next_state, done)
                state = next_state
                episode_return += reward
                # 当buffer数据的数量超过一定值后,才进行Q网络训练
                if replay_buffer.size() > minimal_size:
                    b_s, b_a, b_r, b_ns, b_d = replay_buffer.sample(batch_size)
                    transition_dict = {
                        'states': b_s,
                        'actions': b_a,
                        'next_states': b_ns,
                        'rewards': b_r,
                        'dones': b_d
                    }
                    agent.update(transition_dict)
            return_list.append(episode_return)
            if (i_episode + 1) % 10 == 0:
                pbar.set_postfix({
                    'episode':
                        '%d' % (num_episodes / 10 * i + i_episode + 1),
                    'return':
                        '%.3f' % np.mean(return_list[-10:])
                })
            pbar.update(1)

运行结果及报错内容


Traceback (most recent call last):
  File "E:\graduate student\Python\Reinforcement learning\HANDS-ON Reinforcement learning\04_DQN\01_DQN.py", line 120, in <module>
    env.seed(0)
  File "D:\Python39\lib\site-packages\gym\core.py", line 241, in __getattr__
    return getattr(self.env, name)
  File "D:\Python39\lib\site-packages\gym\core.py", line 241, in __getattr__
    return getattr(self.env, name)
  File "D:\Python39\lib\site-packages\gym\core.py", line 241, in __getattr__
    return getattr(self.env, name)
AttributeError: 'CartPoleEnv' object has no attribute 'seed'

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
czc1454 2022-09-18 14:41
关注
你把gym换成0.25.2版本就行了。 pip install gym==0.25.2

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 14

无用 7
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

解决‘CartPoleEnv‘ object has no attribute ‘seed‘问题
2023-09-14 14:42

零奥的博客在DQN训练过程中使用env.seed(seed)配置CartPole-V0出现如下错误：解决方法：将gym降级 pip uninstall gym pip install gym==0.25.2
强化学习 —— DQN 代码遇到的问题总结
2022-12-21 11:25

g114113的博客 强化学习 DQN 算法代码出现的报错
强化学习入门级实践教学
2022-03-20 21:22

微笑小星的博客可以先阅读我的文章强化学习纲要，本文针对强化学习的入门级讲解。代码主要参考强化学习算法框架库：PARL 资料推荐书籍：《Reinforcement Learning: An Introduction》视频：David Silver经典强化学习公开课、...
Python开发：从入门到精通
2025-07-16 08:45

莲华君的博客用 Python 以“道”驭“术”，将编程思想与实践应用相结合，引导读者不仅掌握Python语言，更能建立科学的编程世界观，最终达到知行合一的境界。
蘑菇书easy-rl安装指南：Gym环境配置与兼容性处理
2025-09-06 03:49

杜璟轶Freda的博客 No available video device 图形环境缺失安装xvfb（Linux）或更新显卡驱动 AttributeError: 'tuple' object has no attribute 'seed' Gym版本不兼容确认已卸载高版本Gym：pip uninstall gym -y 4. 兼容性处理高级...
pytorch_car_caring 排坑记录
2024-01-30 16:17

Debug的魔法小马的博客正好我还要用到RL做这个任务的代码，就在github上看了下，发现有几个，打算都跑跑，看谁效果好，代码又...然后突然想到，这是强化学习的测试，这个报错出现在网络对价值的估计上，我现在又不需要价值，我只需要动作。
18_2Reinforcement Learning_\r_end=““_Deep Q-Learning_Double DQN_Dueling DQN_TF-Agents
2021-07-31 14:21

LIQING LIN的博客 The target model is just a clone of the online model: import tensorflow as tf from tensorflow import keras import numpy as np import gym keras.backend.clear_session() tf.random.set_seed(42) np.random...
18_3Reinforcement Learning_LunarLander_SpaceInvader
2021-08-03 23:39

LIQING LIN的博客 The credit assignment problem is the fact that when a Reinforcement Learning agent receives a reward, it has no direct way of knowing which of its previous actions contributed to this reward....
2020年 ICLR 国际会议最终接受论文(poster-paper)列表(二)
2020-02-21 16:49

AINLPer的博客 The dependency of the generalization error of neural networks on model and dataset size is of critical importance both in practice and for understanding the theory of neural networks. Nevertheless, ...
pandas初解
2019-03-17 21:29

python_cat_d的博客 image_1cggdo6v11a7dqn91l4m1g2an5m3a.png-3.7kB 5 pandas快速进阶 - 函数应用和映射df.apply() 5.1 numpy中常用函数 df=DataFrame(np.random.randn(4,3),columns=list(‘bde’), index=[‘one’,‘two’,...
TensorFlow 1.x 深度学习秘籍：6~10
2023-04-15 21:28

绝不原创的飞龙的博客本文来自【ApacheCN 深度学习译文集】，采用译后编辑（MTPE）流程来尽可能提升效率。不要担心自己的形象，只关心如何实现目标。——《原则》，生活原则 2.3.c 六、循环神经网络在本章中，我们将介绍一些涵盖以下...
强化学习研讨会（一）
2025-07-17 15:47

绝不原创的飞龙的博客各种智能应用，如视频游戏、库存管理软件、仓库机器人和翻译工具，利用强化学习RL）做出决策并执行动作，以最大化期望结果的概率。本书将帮助你掌握在机器学习模型中实现强化学习的技术和算法。从强化学习的介绍开始...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月15日

强化学习DQN:AttributeError: 'CartPoleEnv' object has no attribute 'seed'

运行动手学强化学习中DQN算法时出现问题，求帮助啊

运行结果及报错内容

2条回答 默认 最新

问题事件

2条回答默认最新