利用stable_baseline3算法库中的PPO算法训练自定义gym环境

用stable_baseline3的PPO训练自定义gym接口环境，目标如下：
输入（observation_space ）：一个shape为2*8的矩阵，矩阵上各元素的值满足一定范围要求，由random随机生成得到
输出（action_space ）：一个shape为1*3的矩阵，同样矩阵上各元素的值满足一定范围要求
理想的训练效果：无论输入是啥，输出稳定到[[5,20,200]]，（或者比较接近，在这附近波动也行）

目前的问题：目前的情况就是训练不出任何效果；训练得到的权重文件，无论输入是啥，输出都会稳定到最大边界上（例如输出始终是[[-15,60,400]]，或者始终是[[15,60,0]],或者始终是[[15,-60,0]]等等），请大家帮忙指点一下：
（解答要求：别复制粘贴GPT，能提供实际可行的建议达到上述理想训练效果）
下面是源码，有stable_baseline3、gym环境可直接运行，如果没有环境，可以在anaconda下pytorch+gym+stable_baseline3环境（分享码gb0v）下载

# -*- coding: utf-8 -*-
import gym
import numpy as np
import random
from stable_baselines3 import PPO
from stable_baselines3.common.vec_env import DummyVecEnv, SubprocVecEnv
import torch


class gymEnv_CSE(gym.Env):
    """
    输入：一个shape为2*8的矩阵，矩阵上各元素的值满足一定范围要求，由random随机生成得到
    输出：一个shape为1*3的矩阵
    理想的训练效果：无论输入是啥，输出稳定为[[5,20,200]]
    """
    def __init__(self):
        self.observation_space = gym.spaces.Box(low=np.array([[200000, -13000000, -10000, 0, -90, -180, 0, 0] for _ in range(2)]),
                                                high=np.array([[600000, -12600000, 1000, 360, 90, 180, 400, 1] for _ in range(2)]),
                                                shape=(2, 8), dtype=np.float64)

        self.action_space = gym.spaces.Box(low=np.array([[-15, -60, 0]]),
                                           high=np.array([[15, 60, 400]]),
                                           shape=(1, 3), dtype=np.float64)

        self.state = None  # 强化学习输入所需状态
        self.done = None  # 本次实例是否完成
        self.actionRecord = None
        self.step_total = 0  # 累计步长
        self.reward_total = 0  # 累计回报

    def seed(self, seed=None):
        pass

    def reset(self):
        self.state = np.zeros((2, 8))
        self.done = False
        self.actionRecord = None
        self.step_total = 0
        self.reward_total = 0

        self.get_State_From_PlayerDataJson()
        return self.state

    def __del__(self):
        pass

    def get_State_From_PlayerDataJson(self):
        self.state[0, 0] = random.random() * 400000 + 200000
        self.state[0, 1] = random.random() * 400000 - 13000000
        self.state[0, 2] = random.random() * 11000 - 10000
        self.state[0, 3] = random.random() * 360
        self.state[0, 4] = random.random() * 180 - 90
        self.state[0, 5] = random.random() * 360 - 180
        self.state[0, 6] = random.random() * 400
        self.state[0, 7] = 1
        self.state[1, 0] = random.random() * 400000 + 200000
        self.state[1, 1] = random.random() * 400000 - 13000000
        self.state[1, 2] = random.random() * 11000 - 10000
        self.state[1, 3] = random.random() * 360
        self.state[1, 4] = random.random() * 180 - 90
        self.state[1, 5] = random.random() * 360 - 180
        self.state[1, 6] = random.random() * 400
        self.state[1, 7] = 0
        pass

    def step(self, action: np.ndarray):
        # # 从下面这几行可以看出，神经网络从训练刚开始产生的决策就没变过
        # if self.actionRecord is None:
        #     pass
        # else:
        #     if not (self.actionRecord == action).all():
        #         print(self.step_total)
        # self.actionRecord = action

        # 步数记录＋1
        self.step_total += 1

        # 更新状态
        self.get_State_From_PlayerDataJson()

        # 计算reward，当输出稳定为[[5,20,200]]左右时的reward最大
        Fa = abs(action[0, 0] - 5)
        Fb = abs(action[0, 1] - 20)
        Fc = abs(action[0, 2] - 200)
        reward = (300 - Fa - Fb - Fc)/300

        # 累积reward
        self.reward_total += reward
        if self.step_total > 200:
            self.done = True
            print(self.reward_total)
        return self.state, reward, self.done, {}

    def close(self):
        pass

    def render(self, mode="human"):
        pass


def linear_schedule(progress_remaining: float):
    return progress_remaining * 0.0005


def stepCallBack(a, b):
    """
    用于保存过程权重
    """
    weightSaveInterval = 200000
    if a["self"].num_timesteps % weightSaveInterval == 0:
        a["self"].save("./PPO_processWeight_IO1/W_" + str(a["self"].num_timesteps))


def train_PPO():
    # Parallel environments
    num_process = 8
    # 这里是多进程并行训练环境
    envList = [gymEnv_CSE for _ in range(num_process)]
    env = SubprocVecEnv(envList)
    # # 单进程环境
    # env = gymEnv_CSE()

    policy_kwargs = dict(activation_fn=torch.nn.ReLU,
                         net_arch=[128, 128, 256, dict(pi=[128, 64], vf=[128, 32])])

    model = PPO(policy="MlpPolicy",  # 选择网络类型，可选MlpPolicy，CnnPolicy，MultiInputPolicy
                env=env,  # Gym中的环境
                learning_rate=linear_schedule,  # 学习率，默认为0.0003
                batch_size=128,  # batch的大小，默认为64
                tensorboard_log="./CSE-TSNR_PPO_tensorboard/",  # tensorboard 的日志文件夹（如果没有，则不记录），默认为None
                policy_kwargs=policy_kwargs,  # 在创建时传递给策略的附加参数，默认为None
                verbose=0,  # 详细级别：0 无输出，1 信息，2 调试，默认为0
                )

    model.learn(total_timesteps=1000000,  # 要训练的环境步数
                callback=stepCallBack,  # 在每一步调用的回调，可以用CheckpointCallback来创建一个存档点和规定存档间隔
                )

    model.save("CSE-TSNR_PPO_IO1")


def run_PPO():
    # Parallel environments
    env = gymEnv_CSE()

    model = PPO.load("CSE-TSNR_PPO_IO1.zip")

    obs = env.reset()
    dones = False
    while not dones:
        action, _states = model.predict(obs)
        obs, rewards, dones, info = env.step(action)
        print("--------------")
        print(action, obs, rewards, dones, info)
        env.render()

    print("run-PPO:success fin ^ V ^!")


if __name__ == '__main__':
    train_PPO()
    print("========================================================")
    run_PPO()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

10条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
追cium 2023-03-19 18:42
关注
参考GPT和自己的思路：

根据您提供的代码和问题描述，有几个可能导致训练不成功的原因：

action_space 的范围设置过大，可能导致训练不稳定。建议尝试缩小 action_space 的范围，看看训练效果是否有所改善。

神经网络结构、learning_rate、batch_size 等参数可能也会对训练效果有很大的影响。建议尝试调整这些参数，看看训练效果是否有所改善。

还有可能是您的训练数据不够充分，或者训练时间不够长，导致模型没有达到稳定状态。建议增加训练时间，并尝试增加训练数据的数量。

另外，建议在训练过程中使用一些常用的训练技巧，比如经验回放、dropout、批归一化等，这些技巧可以有效提高训练效果和稳定性。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

强化学习代码报错，typerror python
2022-10-05 11:55

回答 1 已采纳 StopTrainingOnRewardThreshold 不是都提示说传递了一个不期望的参数 'treshhold_type' Ctrl +鼠标左键点进去看下这个方法都需要哪些参数啊
Java运行窗体出现 setSelectedIndex: 3 out of bounds eclipse java
2022-10-17 13:21

回答 1 已采纳 RoomFrm1类的386行改成这样Cnum.setSelectedIndex(rs.getInt("personNum") - 1);报错的意思是：你从数据库取出的personNum值超出了表格的行
如何在执行PHP“preg_replace”时在base64中动态编码 javascript php
2015-04-04 04:35

回答 1 已采纳 Here is a sample code with preg_replace_callback showing how you can modify submatches. $str = "b
强化学习之stable_baseline3详细说明和各项功能的使用
2022-02-24 16:02

微笑小星的博客 stable-baseline3是一个非常受欢迎的深度强化学习工具包，能够快速完成强化学习算法的搭建和评估，提供预训练的智能体，包括保存和录制视频等等，是一个功能非常强大的库。详情可以查看官网：...
在c++中使用opencv 4.5.5+cuda 11.5+cudnn 8.3.3时遇到:No CUDA support的问题。 c++ dnn opencv
2022-12-21 16:46

回答 3 已采纳 cmake的时候你要指定CUDA_ARCH_PTX or CUDA_ARCH_BIN，3060的cuda算力8.6，你需要设置CUDA_ARCH_BIN或者显卡架构为安培架构，命令行里面加上这两个参数
SAS 请看一下我的sas代码有什么问题算risk difference r语言 sass 数据分析有问必答
2021-08-03 17:25

回答 1 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式
为什么设置了layout_gravity="right",button3 不会到右边?
2012-09-02 11:11

回答 1 已采纳对于 LinearLayout 当 android:orientation="vertical" 时，只有水平方向的设置才起作用，垂直方向的设置不起作用。即：left，right，cente
StableBaselines3：强化学习算法库
2024-04-29 15:58

AI天才研究院的博客随着人工智能技术的快速发展，强化学习（Reinforcement Learning, RL）作为一种重要的机器学习方法，已经在许多领域中取得了显著的成果。RL算法通过与环境的交互，学习如何在不同的状态下采取最佳行动，从而最大化...
二级菜单的子菜单点击高亮的同时其对应的父级菜单也呈现高亮。 css css3 html5 jquery
2020-07-03 15:05

回答 2 已采纳给一级菜单添加id 给二级菜单添加attr，parent-id属性然后给二级菜单添加hover事件，方法体内获取当前节点，然后获取attr中的parent-id属性，然后用id选择器获取一级菜单
窗口小部件中的窗口小部件内容未显示 php
2019-01-24 10:59

回答 1 已采纳 Add this code in functions.php function stay_widgets_init() { register_sidebar( array(
关于element-ui中<span>标签与级联选择器<el-cascader>的对齐问题 html5 javascript vue.js
2021-03-25 12:10

回答 3 已采纳我试了你的代码是在一行的,你可以检查一下.el-cascader,看看他的样式是不是行内块
Docker实操4——Stable Baselines3强化算法库
2021-12-29 17:11

Nemo555的博客在强化环境镜像的基础上，接入了强化算法库stable-baselines3
当Cache-First策略中的内容发生更改时，网站不会更新 javascript php
2017-06-14 13:42

回答 3 已采纳 I solved the issue as shown below: i.e if user is offline fetch from cache else load from network
Stable Baselines3 使用教程
2024-08-09 07:38

孙双曙Janet的博客 Stable Baselines3 使用教程 stable-baselines3PyTorch version of Stable Baselines, reliable implementations of reinforcement learning algorithms. 项目地址:...
机械臂强化学习实战（stable baselines3+panda-gym）
2022-05-29 12:56

小帅吖的博客 panda-gym和stable-baselines3算法库结合训练panda机械臂的reach任务。
目前最好用的大规模强化学习算法训练库是什么？
2020-08-10 11:03

视学算法的博客点击蓝字关注我们本文整理自知乎问答，仅用于学术分享，著作权归作者所有。如有侵权，请联系后台作删文处理。本文精选知乎问题“目前最好用的大规模强化学习算法训练库是什么？”评论区的热门回答，...
深度强化学习库的设计思想带你深入了解DRL：从环境、网络更新、经验池、经验池、算法基类分离度、分布式、多进程等方面评价
2023-07-15 10:05

汀、人工智能的博客深度强化学习库的设计思想带你深入了解DRL：从环境、网络更新、经验池、经验池、算法基类分离度、分布式、多进程等方面评价
AI架构师必知必会系列：强化学习在金融领域的应用
2023-12-05 01:14

AI天才研究院的博客在金融领域，如何制定最优决策以实现收益最大化和风险最小化一直是一个核心问题。传统的金融决策方法主要依赖于统计模型...近年来,随着人工智能技术的快速发展,强化学习作为一种智能决策方法受到了金融领域的广泛关注。
探索强化学习新边疆：稳定基线3贡献版（SB3-Contrib）
2024-09-10 09:55

祝晋遥的博客探索强化学习新边疆：稳定基线3贡献版（SB3-Contrib） stable-baselines3-contribContrib package for Stable-Baselines3 - Experimental reinforcement learning (RL) code项目地址:...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月19日

悬赏问题

¥100 需要跳转番茄畅听app的adb命令
¥50 寻找一位有逆向游戏盾sdk 应用程序经验的技术
¥15 请问有用MZmine处理 “Waters SYNAPT G2-Si QTOF质谱仪在MSE模式下采集的非靶向数据” 的分析教程吗
¥50 opencv4nodejs 如何安装
¥15 adb push异常 adb: error: 1409-byte write failed: Invalid argument
¥15 nginx反向代理获取ip，java获取真实ip
¥15 eda：门禁系统设计
¥50 如何使用js去调用vscode-js-debugger的方法去调试网页
¥15 376.1电表主站通信协议下发指令全被否认问题
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证

利用stable_baseline3算法库中的PPO算法训练自定义gym环境

10条回答 默认 最新

问题事件

悬赏问题

10条回答默认最新