强化学习，python

目前在用python做强化学习，刚入门，有个问题不是很明白。

QLearning的代码是：

import numpy as np
import math

class QLearning(object):
    def __init__(self, state_dim: object, action_dim: object, cfg: object) -> object:
        self.action_dim = action_dim  # dimension of acgtion
        self.lr = cfg.lr  # learning rate
        self.gamma = cfg.gamma  
        self.epsilon = 0 
        self.sample_count = 0  
        self.epsilon_start = cfg.epsilon_start
        self.epsilon_end = cfg.epsilon_end
        self.epsilon_decay = cfg.epsilon_decay
        self.Q_table = np.zeros((state_dim, action_dim)) # Q表
        
    def choose_action(self, state):
        self.sample_count += 1
        self.epsilon = self.epsilon_end + (self.epsilon_start - self.epsilon_end) * \
            math.exp(-1. * self.sample_count / self.epsilon_decay)
        if np.random.uniform(0, 1) > self.epsilon:  # 随机选取0-1之间的值，如果大于epsilon就按照贪心策略选取action，否则随机选取
            action = self.predict(state)
        else:
            action = np.random.choice(self.action_dim)  #有一定概率随机探索选取一个动作
        return action

    def predict(self, state):
        '''根据输入观测值，采样输出的动作值，带探索，测试模型时使用
        '''
        Q_list = self.Q_table[state, :]
        Q_max = np.max(Q_list)
        action_list = np.where(Q_list == Q_max)[0]  
        action = np.random.choice(action_list) # Q_max可能对应多个 action ，可以随机抽取一个
        return action
            
    def update(self, state, action, reward, next_state, done):
        Q_predict = self.Q_table[state, action]
        if done:
            Q_target = reward  # 没有下一个状态了
        else:
            Q_target = reward + self.gamma * np.max(
                self.Q_table[next_state, :])  # Q_table-learning
        self.Q_table[state, action] += self.lr * (Q_target - Q_predict)  # 修正q
    def save(self,path):
        np.save(path+"Q_table.npy", self.Q_table)
    def load(self, path):
        self.Q_table = np.load(path+"Q_table.npy")

做测试的代码是：

import gym
from QLearning.agent1 import QLearning
from envs.gridworld_env import CliffWalkingWapper

env = gym.make("CliffWalking-v0")  # 0 up, 1 right, 2 down, 3 left
env = CliffWalkingWapper(env)
agent = QLearning(
    obs_dim=env.observation_space.n,
    action_dim=env.action_space.n,
    learning_rate = cfg.lr,
    gamma = cfg.gamma,
    epsilon_start = cfg.epsilon_start, epsilon_end = cfg.epsilon_end, epsilon_decay=cfg.epsilon_decay)
render = False  # 是否打开GUI画面
rewards = []  # 记录所有episode的reward
MA_rewards = []  # 记录滑动平均的reward
steps = []  # 记录所有episode的steps
for i_episode in range(1, cfg.max_episodes + 1):
    ep_reward = 0  # 记录每个episode的reward
    ep_steps = 0  # 记录每个episode走了多少step
    obs = env.reset()  # 重置环境, 重新开一局（即开始新的一个episode）
    while True:
        action = agent.sample(obs)  # 根据算法选择一个动作
        next_obs, reward, done, _ = env.step(action)  # 与环境进行一个交互
        # 训练 Q-learning算法
        agent.learn(obs, action, reward, next_obs, done)  # 不需要下一步的action
        obs = next_obs  # 存储上一个观察值
        ep_reward += reward
        ep_steps += 1  # 计算step数
        if render:
            env.render()  # 渲染新的一帧图形
        if done:
            break
    steps.append(ep_steps)
    rewards.append(ep_reward)
    # 计算滑动平均的reward
    if i_episode == 1:
        MA_rewards.append(ep_reward)
    else:
        MA_rewards.append(
            0.9 * MA_rewards[-1] + 0.1 * ep_reward)
    print('Episode %s: steps = %s , reward = %.1f, explore = %.2f' % (i_episode, ep_steps,
                                                                      ep_reward, agent.epsilon))
agent.save()  # 训练结束，保存模型

我用的是pycharm，为什么cfg.是报错呢（下划线为红色）? 我始终想不明白

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
皮皮宽 2021-05-20 22:46
关注
我寻思你也没定义cfg啊。。第一个代码段的那个cfg只是形参。cfg包含哪些东西，值都是多少，你这里都没有定义。

一般是自己写一个配置文件，然后python读取进来，或者自己定义一个cfg。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python人工智能 python 人工智能
2023-02-15 16:22

回答 3 已采纳以下答案引用自GPT-3大模型,请合理使用：实例，谢谢。学习python人工智能的最佳方法是从基础开始，例如先学习Python的基本语法、数据库、多线程以及面向对象编程等知识点，然后再从经典的机
python＋人工智能 python 人工智能
2021-09-17 11:55

回答 1 已采纳 python基础不说了，至少numpy模块要会，然后就是tensorflow或者pytorch框架学一点，刚开始不需要太深入，至少遇到一些函数要知道是干什么的，这个不知道也可以百度去查阅。然后学习一些
深度学习模型 python python 人工智能深度学习
2023-04-19 19:30

回答 2 已采纳这篇文章：Python错误 TypeError: ‘NoneType‘ object is not subscriptable解决方案汇总也许能够解决你的问题，你可以看下除此之外, 这篇博客: an
人工智能+Python动手学强化学习源代码
2022-04-27 10:02

vs2022编写源代码，绝对可以运行
关于什么是Python的人工智能分析 python 人工智能
2022-09-30 00:12

回答 2 已采纳可以安装库来解决问题，人工智能一般会下载一些数据分析学习的库，所谓库通俗来讲就是别人用代码封装好的工具，你下载下来通过调用这个库的函数(工具)来用，这样就不用自己再写一遍了
在python上运行代码报错#强化学习 python
2023-02-28 17:02

回答 2 已采纳传参的类型错了，检查一下
学习人工智能要学习什么 python 人工智能
2022-08-25 17:14

回答 2 已采纳 人工智能其实细分的方向也是很多的，主要看你的爱好在哪一块比如深度学习，机器学习，大数据智能等等一般来说人工智能如果只是应用的话比较简单，如果想要深究的话比较难。像深度学习的话，一般小学python的程
Python强化学习实战及其AI原理详解
2023-11-09 10:31

爱编程的喵喵的博客 1. 引言 2. 时间旅行和平行宇宙 3. 强化学习 4. 策略梯度算法 5. 代码案例 6. 推荐阅读与粉丝福利
学习渗透还是学习python python web安全
2022-05-18 17:26

回答 11 已采纳 Python语言很简单入门比较容易黑客方向也很多喜欢的话可以先在网上找点视频看看觉得还是感兴趣再去报班有时候喜欢但不一定擅长，做自己擅长的事情可能会更快乐哦学好了可以去360 这个企业比较重视这
python循环小数精度问题 python 机器学习
2022-07-07 02:07

回答 4 已采纳你可以把具体的题目贴一下，然后看看到底是个什么情况，为什么不能用decimal，因为16位以后除了decimal也没有其他好的办法去控制精确度了
关于Python人工智能的一些问题 python 有问必答
2021-08-14 01:20

回答 2 已采纳 NumPyNumPy 提供了许多数学计算的数据结构和方法，较 Python 自身的 list 效率高很多。它提供的 ndarray 大大简化了矩阵运算。Pandas基于 NumPy 实现的数据处理工具
基于强化学习的五子棋算法设计-python代码完整实现
2021-03-17 21:33

此课程设计通过五子棋算法设计，加深对机器学习中强化学习概念的理解与应用。本次课程设计的任务如下： 1. 给出“自己与自己程序的对抗”的视频，给自己的棋盘加上自己特有的标签，作为你自己程序的论证（防抄袭），...
python的Document对象 python 人工智能机器学习
2023-04-12 17:40

回答 1 已采纳先转为字符串然后去掉前面两个尖括号，然后在转为json就可以取值了
基于Python进行强化学习实验（人工智能实验）【100011561】
2023-04-04 09:22

强化学习问题可以描述为一个智能体从与环境的交互中不断学习以完成特定目标（比如取得最大奖励值）。而强化学习的关键问题是在于每一个动作并不能直接得到监督信息，需要通过整个模型的最终监督信息（奖励）得到，...
基于python的强化学习算法
2022-04-30 17:32

所有代码都是用Python 3编写的，并使用OpenAI Gym的RL环境。高级技术使用Tensorflow实现神经网络。 This repository provides code, exercises and solutions for popular Reinforcement Learning algorithms. ...
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

强化学习，python

1条回答 默认 最新

悬赏问题

1条回答默认最新