强化学习格子类世界无法运行

使用GYm自带的环境Cartolpe-v0可以成功的运行，但是使用自己编写的格子环境就无法进行实验并且出现了维度不一样的报错。
具体报错如下：

报错定位如下：

报错显示矩阵无法进行计算，但是找不到具体的问题,state_dim=10，action_dim=5,格子总的数量有100个，请教如何进行修改。
源代码附上，有人遇到过此类问题吗，应该怎末处理？

import gym
import torch
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
import rl_utils

class PolicyNet(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim, action_dim):
        super(PolicyNet, self).__init__()
        self.fc1 = torch.nn.Linear(state_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, action_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        return F.softmax(self.fc2(x), dim=1)

class REINFORCE:
    def __init__(self, state_dim, hidden_dim, action_dim, learning_rate, gamma,
                 device):
        self.policy_net = PolicyNet(state_dim, hidden_dim,
                                    action_dim).to(device)
        self.optimizer = torch.optim.Adam(self.policy_net.parameters(),
                                          lr=learning_rate)  # 使用Adam优化器
        self.gamma = gamma  # 折扣因子
        self.device = device

    def take_action(self, state):  # 根据动作概率分布随机采样
        state = torch.tensor([state], dtype=torch.float).to(self.device)
        probs = self.policy_net(state)
        action_dist = torch.distributions.Categorical(probs)
        action = action_dist.sample()
        return action.item()

    def update(self, transition_dict):
        reward_list = transition_dict['rewards']
        state_list = transition_dict['states']
        action_list = transition_dict['actions']

        G = 0
        self.optimizer.zero_grad()
        for i in reversed(range(len(reward_list))):  # 从最后一步算起
            reward = reward_list[i]
            state = torch.tensor([state_list[i]],
                                 dtype=torch.float).to(self.device)
            action = torch.tensor([action_list[i]]).view(-1, 1).to(self.device)
            log_prob = torch.log(self.policy_net(state).gather(1, action))
            G = self.gamma * G + reward
            loss = -log_prob * G  # 每一步的损失函数
            loss.backward()  # 反向传播计算梯度
        self.optimizer.step()  # 梯度下降


learning_rate = 1e-3
num_episodes = 1000
hidden_dim = 128
gamma = 0.98
device = torch.device("cuda") if torch.cuda.is_available() else torch.device(
    "cpu")

env_name = "GridWorld-v0"
env = gym.make(env_name)
env.seed(0)
torch.manual_seed(0)
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n
agent = REINFORCE(state_dim, hidden_dim, action_dim, learning_rate, gamma,
                  device)

return_list = []
for i in range(10):
    with tqdm(total=int(num_episodes / 10), desc='Iteration %d' % i) as pbar:
        for i_episode in range(int(num_episodes / 10)):
            episode_return = 0
            transition_dict = {
                'states': [],
                'actions': [],
                'next_states': [],
                'rewards': [],
                'dones': []
            }
            state = env.reset()
            done = False
            while not done:
                action = agent.take_action(state)
                next_state, reward, done, _ = env.step(action)
                transition_dict['states'].append(state)
                transition_dict['actions'].append(action)
                transition_dict['next_states'].append(next_state)
                transition_dict['rewards'].append(reward)
                transition_dict['dones'].append(done)
                state = next_state
                episode_return += reward
            return_list.append(episode_return)
            agent.update(transition_dict)
            if (i_episode + 1) % 10 == 0:
                pbar.set_postfix({
                    'episode':
                    '%d' % (num_episodes / 10 * i + i_episode + 1),
                    'return':
                    '%.3f' % np.mean(return_list[-10:])
                })
            pbar.update(1)

episodes_list = list(range(len(return_list)))
plt.plot(episodes_list, return_list)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('REINFORCE on {}'.format(env_name))
plt.show()

mv_return = rl_utils.moving_average(return_list, 9)
plt.plot(episodes_list, mv_return)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('REINFORCE on {}'.format(env_name))
plt.show()

rl_utls.py文件如下：

from tqdm import tqdm
import numpy as np
import torch
import collections
import random

class ReplayBuffer:
    def __init__(self, capacity):
        self.buffer = collections.deque(maxlen=capacity) 

    def add(self, state, action, reward, next_state, done): 
        self.buffer.append((state, action, reward, next_state, done)) 

    def sample(self, batch_size): 
        transitions = random.sample(self.buffer, batch_size)
        state, action, reward, next_state, done = zip(*transitions)
        return np.array(state), action, reward, np.array(next_state), done 

    def size(self): 
        return len(self.buffer)

def moving_average(a, window_size):
    cumulative_sum = np.cumsum(np.insert(a, 0, 0)) 
    middle = (cumulative_sum[window_size:] - cumulative_sum[:-window_size]) / window_size
    r = np.arange(1, window_size-1, 2)
    begin = np.cumsum(a[:window_size-1])[::2] / r
    end = (np.cumsum(a[:-window_size:-1])[::2] / r)[::-1]
    return np.concatenate((begin, middle, end))

def train_on_policy_agent(env, agent, num_episodes):
    return_list = []
    for i in range(10):
        with tqdm(total=int(num_episodes/10), desc='Iteration %d' % i) as pbar:
            for i_episode in range(int(num_episodes/10)):
                episode_return = 0
                transition_dict = {'states': [], 'actions': [], 'next_states': [], 'rewards': [], 'dones': []}
                state = env.reset()
                done = False
                while not done:
                    action = agent.take_action(state)
                    next_state, reward, done, _ = env.step(action)
                    transition_dict['states'].append(state)
                    transition_dict['actions'].append(action)
                    transition_dict['next_states'].append(next_state)
                    transition_dict['rewards'].append(reward)
                    transition_dict['dones'].append(done)
                    state = next_state
                    episode_return += reward
                return_list.append(episode_return)
                agent.update(transition_dict)
                if (i_episode+1) % 10 == 0:
                    pbar.set_postfix({'episode': '%d' % (num_episodes/10 * i + i_episode+1), 'return': '%.3f' % np.mean(return_list[-10:])})
                pbar.update(1)
    return return_list

def train_off_policy_agent(env, agent, num_episodes, replay_buffer, minimal_size, batch_size):
    return_list = []
    for i in range(10):
        with tqdm(total=int(num_episodes/10), desc='Iteration %d' % i) as pbar:
            for i_episode in range(int(num_episodes/10)):
                episode_return = 0
                state = env.reset()
                done = False
                while not done:
                    action = agent.take_action(state)
                    next_state, reward, done, _ = env.step(action)
                    replay_buffer.add(state, action, reward, next_state, done)
                    state = next_state
                    episode_return += reward
                    if replay_buffer.size() > minimal_size:
                        b_s, b_a, b_r, b_ns, b_d = replay_buffer.sample(batch_size)
                        transition_dict = {'states': b_s, 'actions': b_a, 'next_states': b_ns, 'rewards': b_r, 'dones': b_d}
                        agent.update(transition_dict)
                return_list.append(episode_return)
                if (i_episode+1) % 10 == 0:
                    pbar.set_postfix({'episode': '%d' % (num_episodes/10 * i + i_episode+1), 'return': '%.3f' % np.mean(return_list[-10:])})
                pbar.update(1)
    return return_list


def compute_advantage(gamma, lmbda, td_delta):
    td_delta = td_delta.detach().numpy()
    advantage_list = []
    advantage = 0.0
    for delta in td_delta[::-1]:
        advantage = gamma * lmbda * advantage + delta
        advantage_list.append(advantage)
    advantage_list.reverse()
    return torch.tensor(advantage_list, dtype=torch.float)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
sodhyfh 2023-03-13 21:23
关注
基于bing、GPT部分内容和本人思考总结：
出现维度不一致的报错可能是因为你的自定义格子环境中的状态空间和动作空间的维度与CartPole-v0不同，需要进行相应的修改。在修改维度之前，我们需要先明确状态空间和动作空间的具体含义。
状态空间(state)是指环境的状态，即包括所有的观测值，例如CartPole-v0的状态包括车的位置、速度和杆的角度、角速度。状态空间的维度应该等于一个状态所包含的观测值的数量。
动作空间(action)是指智能体可以执行的动作，例如CartPole-v0的动作是向左或向右推车。动作空间的维度应该等于可选动作的数量。
在你的自定义格子环境中，state_dim=10，action_dim=5，而格子的总数量是100个，这意味着你的状态空间和动作空间的维度与CartPole-v0不同，需要进行相应的修改。可以尝试修改状态空间和动作空间的维度，使其与你的自定义格子环境相匹配。同时也需要注意修改你的代码，确保状态和动作的维度与你的修改保持一致。例如，如果你的自定义格子环境的状态空间和动作空间的维度分别为state_dim和action_dim，可以在代码中将状态和动作的维度定义为(state_dim,)和(action_dim,)，这样就可以避免维度不一致的错误。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

采用循环语句输出3行3列的格子无法对齐 c语言
2022-11-21 14:55

回答 1 已采纳 board[i][j]里面要放个空格，不要放\0
yolo算法每个格子预测的都是同一类吗人工智能机器学习深度学习神经网络自动驾驶
2019-06-13 02:49

回答 4 已采纳是的，每个格子只预测一类，这也是yolov3存在的固有缺陷，如果一个格子里存在多目标的话，只能识别一个
C（格子指数增长放谷粒问题）停不下来 c语言学习方法问答团队
2022-10-10 00:06

回答 2 已采纳 count=count++ 改成 count=count + 1；如果那样写count的值一直会不变，这个和编译器的行为有关系，大概跟了一下执行的顺序是先缓存count的值，然后count加1，
基于强化学习与深度强化学习的游戏AI训练
2021-07-21 21:39

Alex_SCY的博客第一个小项目即为简单AI走迷宫游戏，通过强化学习的Q-learning算法，对AI进行训练来让其能以大概率找打一条通关路径并基本按照该路径进行移动。第二个小项目基于Gym库提供的Atari游戏Pong，通过深度强化学习的DQN...
Matlab怎么相邻格子差值 matlab 有问必答
2022-03-29 14:28

回答 2 已采纳首先提取数据出来，读取具有值的每一列，计算该列的长度，运用循环加上条件语句可以实现。具体的操作如下： clc clear %创建一个类似的矩阵 data=[1,2,3,4,5; 6,7,8,9
C++基本走格子问题 c++
2021-11-11 08:36

回答 1 已采纳按理说输入9，9也不该正确吧，int的存不下那么大的数了
画2020格子地图(面相对象初级问题) java
2022-07-22 10:34

回答 1 已采纳什么是2020格子 20×20吗思路是：2个for循环嵌套外面的for循环变量i，里面的for循环变量j 代表着格子-的位置（i，j）然后就可以打印格子地图然后移动方法也只是在i
13. 强化学习编程实验1-在格子世界中寻宝
2024-01-06 00:02

中年阿甘的博客本文介绍了第1个强化学习编程实验，在格子世界中寻宝的基本需求，程序设计的基本架构。
bootstrap栅格为啥设置12个格子会挤出外面？ bootstrap
2022-05-06 17:34

回答 1 已采纳不应该用class= row包一下吗
请问如何在电脑桌面上建这些透明的格子其他
2022-03-16 19:36

回答 1 已采纳我用的是腾讯桌面管理
计算两个格子之间移动成本最低路线 c# python r语言
2023-03-13 19:34

回答 1 已采纳这个广度优先遍历搜索就可以实现了，坐标分别+1 -1得到周围的
方法试用：基于强化学习提高EEG分类准确率的特征选择方法（完整代码）
2023-04-21 15:21

槿花Hibiscus的博客学习内容一览：这一篇文章主要建立在前文与的基础上，尝试运用强化学习的方法来提高识别睡眠阶段的准确率，对前段时间强化学习的学习成果做一个总结。
文字更换格子不顶头问题 css css3 html5
2022-11-02 09:11

回答 3 已采纳应该是其他地方影响了，复制你的代码不存在你说的情况
强化学习Q-learning实践
2023-06-10 18:17

赵卓不凡的博客我们选择的环境是OpenAI Gym的Taxi-v3，该环境简单明了，是强化学习RL领域的优秀入门样例。实际上Taxi-v3由一个grid map组成，如下图示：其中，该环境下的agent是一名出租车司机，他必须接客户（红色小人）并将其送...
分层强化学习
2024-02-08 15:20

爱科技Ai的博客当环境较为复杂或者任务较为困难时，智能体的状态和动作空间过大，会导致强化学习难以取得理想的效果。应对这种状况，分层强化学习应运而生，主要解决稀疏reward以及状态动作空间过大导致难以训练的问题。人类在解决...
【EasyRL学习笔记】第一章 强化学习基础
2022-10-05 19:56

WSKH0929的博客 强化学习（reinforcement learning，RL）：智能体可以在与复杂且不确定的环境进行交互时，尝试使所获得的奖励最大化的算法。动作（action）: 环境接收到的智能体基于当前状态的输出。状态（state）：智能体从环境中...
赛题分析：AI决策•强化学习落地挑战赛——学习指定平等的促销策略
2022-01-02 17:23

微笑小星的博客现在商家想要将促销策略从个性化促销转换为平等化促销，执行的方式是发放优惠券，我们可以通过控制优惠券的数量和折扣...要学习一个平等化促销策略，它输入的是全体用户的状态，输出一个给全体用户发放相同的促销动作。
深入理解强化学习——强化学习智能体的四要素：模型（Model）
2023-10-16 19:55

von Neumann的博客我们将在后续的文章中中探讨强化学习系统，它可以同时通过试错、学习环境模型并使用模型来进行规划现代强化学习已经从低级的、试错式的学习延展到了高级的、深思熟虑的规划。如果我们采取基于策略的强化学习（Policy...
【强化学习】《动手学强化学习》动态规划算法
2022-09-17 11:33

AgentSmart的博客本文介绍强化学习中的动态规划方法，主要包括策略迭代算法和价值迭代算法。主要内容参考自《动手学强化学习》书籍。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月13日

悬赏问题

¥20 易康econgnition精度验证
¥15 线程问题判断多次进入
¥15 msix packaging tool打包问题
¥28 微信小程序开发页面布局没问题，真机调试的时候页面布局就乱了
¥15 python的qt5界面
¥15 无线电能传输系统MATLAB仿真问题
¥50 如何用脚本实现输入法的热键设置
¥20 我想使用一些网络协议或者部分协议也行，主要想实现类似于traceroute的一定步长内的路由拓扑功能
¥30 深度学习，前后端连接
¥15 孟德尔随机化结果不一致

强化学习格子类世界无法运行

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新