python强化学习SAC算法



#构造一个简单的环境，测试代码收敛性
class Environment():
    def __init__(self):
        self.min_action = -1
        self.max_action = 1

        self.dim_state = 6
        self.dim_action = 3
        self.chase = None
        self.escape = None
        self.initaldistance = None
        self.time = 1

    def reset(self):

        self._initialize_positions()
        observation = self._get_observation()
        return observation

    def _initialize_positions(self):  # 初始化航天器位置信息
        current_time = int(time.time())
        # 使用当前时间戳作为随机数生成器的种子
        random.seed(current_time)
        self.chase = torch.tensor([random.randint(1, 60),random.randint(1, 60),random.randint(1, 60)])
        self.escape = torch.tensor([random.randint(1, 60),random.randint(1, 60),random.randint(1, 60)])
        self.initaldistance = (torch.abs(self.chase[0]-self.escape[0]) + torch.abs(self.chase[1]-self.escape[1]) + torch.abs(self.chase[2]-self.escape[2]))

    def step(self, action):  # 输入action，输出状态，奖励，结束标志,action应该也是tensor
        # action = self.chooseAction(action)  # 离散转化为向量
        # print(action)
        self.chase = self.update_state(self.chase, torch.tensor(action))
        action = torch.tensor([0, 0, 0])
        self.escape = self.update_state(self.escape, action)
        # print("escape is",self.escape,"chase is ",self.chase)

        observation = self._get_observation()
        reward = self.reward()
        done = self.check_termination()
        return observation, reward, done, None

    # def chooseAction(self, action):
    #     if (action == 0):
    #         output = torch.tensor([1, 0, 0])
    #     elif (action == 1):
    #         output = torch.tensor([0, 1, 0])
    #     elif (action == 2):
    #         output = torch.tensor([0, 0, 1])
    #     elif (action == 3):
    #         output = torch.tensor([0, 0, 0])
    #     elif (action == 4):
    #         output = torch.tensor([-1, 0, 0])
    #     elif (action == 5):
    #         output = torch.tensor([0, -1, 0])
    #     elif (action == 6):
    #         output = torch.tensor([0, 0, -1])
    #     return output


    def update_state(self, state, action):  # 输入0-1的state,更新self.state
        state = state + action
        return state

    def _get_observation(self):
        observation = torch.cat((self.chase.unsqueeze(0), self.escape.unsqueeze(0)), dim=1)
        return observation

    def check_termination(self):
        terminate = False
        if self.escape[0] == self.chase[0] and self.escape[1] == self.chase[1] and self.escape[2] == self.chase[2]:
            terminate = True
        return terminate

    def reward(self):
        distance = (torch.abs(self.chase[0]-self.escape[0]) + torch.abs(self.chase[1]-self.escape[1]) + torch.abs(self.chase[2]-self.escape[2]))
        # 当追逐者靠近逃逸者时，奖励递增；距离越近，奖励越大
        reward = self.initaldistance - distance
        # if distance<self.initaldistance:
        #     reward = self.initaldistance - distance
        if self.chase[0]>60 or self.chase[1]>60 or self.chase[2]>60:#对范围进行限制
            reward = reward - torch.abs(self.chase[0]-60)- torch.abs(self.chase[1]-60)- torch.abs(self.chase[2]-60)
        if self.chase[0]<0 or self.chase[1]<0:
            reward = reward - torch.abs(self.chase[0]) - torch.abs(self.chase[1]) - torch.abs(self.chase[2])
        if self.escape[0] == self.chase[0] and self.escape[1] == self.chase[1] and self.escape[2] == self.chase[2]:
            reward = 1000000000000
            # print("")
        return reward

class ReplayBeffer():
    def __init__(self, buffer_maxlen):
        self.buffer = deque(maxlen=buffer_maxlen)

    def push(self, data):
        self.buffer.append(data)

    def sample(self, batch_size):
        state_list = []
        action_list = []
        reward_list = []
        next_state_list = []
        done_list = []

        batch = random.sample(self.buffer, batch_size)
        for experience in batch:
            s, a, r, n_s, d = experience
            # state, action, reward, next_state, done

            state_list.append(s)
            action_list.append(a)
            reward_list.append(r)
            next_state_list.append(n_s)
            done_list.append(d)


        return torch.stack([state.to(device) for state in state_list]), \
               torch.FloatTensor(action_list).to(device), \
               torch.FloatTensor(reward_list).unsqueeze(-1).to(device), \
               torch.stack([state[0].to(device) for state in next_state_list]), \
               torch.FloatTensor(done_list).unsqueeze(-1).to(device)

    def buffer_len(self):
        return len(self.buffer)


# Value Net
class ValueNet(nn.Module):
    def __init__(self, state_dim, edge=3e-3):
        super(ValueNet, self).__init__()
        self.linear1 = nn.Linear(state_dim, 256)
        self.linear2 = nn.Linear(256, 256)
        self.linear3 = nn.Linear(256, 3)

        self.linear3.weight.data.uniform_(-edge, edge)
        self.linear3.bias.data.uniform_(-edge, edge)

    def forward(self, state):
        x = F.relu(self.linear1(state))
        x = F.relu(self.linear2(x))
        x = self.linear3(x)

        return x


# Soft Q Net
class SoftQNet(nn.Module):
    def __init__(self, state_dim, action_dim, edge=3e-3):
        super(SoftQNet, self).__init__()
        self.linear1 = nn.Linear(state_dim + action_dim, 256)
        self.linear2 = nn.Linear(256, 256)
        self.linear3 = nn.Linear(256, 3)

        self.linear3.weight.data.uniform_(-edge, edge)
        self.linear3.bias.data.uniform_(-edge, edge)

    def forward(self, state, action):
        x = torch.cat([state, action], 1)
        x = F.relu(self.linear1(x))
        x = F.relu(self.linear2(x))
        x = self.linear3(x)

        return x


# Policy Net
class PolicyNet(nn.Module):
    def __init__(self, state_dim, action_dim, log_std_min=-20, log_std_max=2, edge=3e-3):
        super(PolicyNet, self).__init__()
        self.log_std_min = log_std_min
        self.log_std_max = log_std_max

        self.linear1 = nn.Linear(state_dim, 256)
        self.linear2 = nn.Linear(256, 256)

        self.mean_linear = nn.Linear(256, action_dim)
        self.mean_linear.weight.data.uniform_(-edge, edge)
        self.mean_linear.bias.data.uniform_(-edge, edge)

        self.log_std_linear = nn.Linear(256, action_dim)
        self.log_std_linear.weight.data.uniform_(-edge, edge)
        self.log_std_linear.bias.data.uniform_(-edge, edge)

    def forward(self, state):
        x = F.relu(self.linear1(state))
        x = F.relu(self.linear2(x))

        mean = self.mean_linear(x)
        log_std = self.log_std_linear(x)
        log_std = torch.clamp(log_std, self.log_std_min, self.log_std_max)

        return mean, log_std

    def action(self, state):
        # state = torch.FloatTensor(state).to(device)
        # mean, log_std = self.forward(state)
        mean, log_std = self.forward(state.float().to(device))
        std = log_std.exp()
        normal = Normal(mean, std)

        z = normal.sample()
        action = torch.tanh(z).detach().cpu().numpy()

        return action

    # Use re-parameterization tick
    def evaluate(self, state, epsilon=1e-6):
        mean, log_std = self.forward(state)
        std = log_std.exp()
        normal = Normal(mean, std)
        noise = Normal(0, 1)

        z = noise.sample()
        action = torch.tanh(mean + std * z.to(device))
        log_prob = normal.log_prob(mean + std * z.to(device)) - torch.log(1 - action.pow(2) + epsilon)

        return action, log_prob


class SAC:
    def __init__(self, env, gamma, tau, buffer_maxlen, value_lr, q_lr, policy_lr):

        self.env = env
        self.state_dim = env.dim_state
        self.action_dim = env.dim_action

        # hyperparameters
        self.gamma = gamma
        self.tau = tau

        # initialize networks
        self.value_net = ValueNet(self.state_dim).to(device)
        self.target_value_net = ValueNet(self.state_dim).to(device)
        self.q1_net = SoftQNet(self.state_dim, self.action_dim).to(device)
        self.q2_net = SoftQNet(self.state_dim, self.action_dim).to(device)
        self.policy_net = PolicyNet(self.state_dim, self.action_dim).to(device)

        # Load the target value network parameters
        for target_param, param in zip(self.target_value_net.parameters(), self.value_net.parameters()):
            target_param.data.copy_(self.tau * param + (1 - self.tau) * target_param)

        # Initialize the optimizer
        self.value_optimizer = optim.Adam(self.value_net.parameters(), lr=value_lr)
        self.q1_optimizer = optim.Adam(self.q1_net.parameters(), lr=q_lr)
        self.q2_optimizer = optim.Adam(self.q2_net.parameters(), lr=q_lr)
        self.policy_optimizer = optim.Adam(self.policy_net.parameters(), lr=policy_lr)

        # Initialize thebuffer
        self.buffer = ReplayBeffer(buffer_maxlen)

    def get_action(self, state):
        action = self.policy_net.action(state)
        return action

    def update(self, batch_size):
        state, action, reward, next_state, done = self.buffer.sample(batch_size)
        new_action, log_prob = self.policy_net.evaluate(state)

        # V value loss
        value = self.value_net(state)
        new_q1_value = self.q1_net(state, new_action)
        new_q2_value = self.q2_net(state, new_action)
        next_value = torch.min(new_q1_value, new_q2_value) - log_prob
        value_loss = F.mse_loss(value, next_value.detach())

        # Soft q  loss
        q1_value = self.q1_net(state, action)
        q2_value = self.q2_net(state, action)
        target_value = self.target_value_net(next_state)
        target_q_value = reward + done * self.gamma * target_value
        q1_value_loss = F.mse_loss(q1_value, target_q_value.detach())
        q2_value_loss = F.mse_loss(q2_value, target_q_value.detach())

        # Policy loss
        policy_loss = (log_prob - torch.min(new_q1_value, new_q2_value)).mean()

        # Update Policy
        self.policy_optimizer.zero_grad()
        policy_loss.backward()
        self.policy_optimizer.step()

        # Update v
        self.value_optimizer.zero_grad()
        value_loss.backward()
        self.value_optimizer.step()

        # Update Soft q
        self.q1_optimizer.zero_grad()
        self.q2_optimizer.zero_grad()
        q1_value_loss.backward()
        q2_value_loss.backward()
        self.q1_optimizer.step()
        self.q2_optimizer.step()

        # Update target networks
        for target_param, param in zip(self.target_value_net.parameters(), self.value_net.parameters()):
            target_param.data.copy_(self.tau * param + (1 - self.tau) * target_param)


def main(env, agent, Episode, batch_size):
    Return = []
    action_range = [env.min_action, env.max_action]

    for episode in range(Episode):
        score = 0
        state = env.reset()[0]
        for i in range(200):
            action = agent.get_action(state)
            # action output range[-1,1],expand to allowable range
            action_in = action * (action_range[1] - action_range[0]) / 2.0 + (action_range[1] + action_range[0]) / 2.0

            next_state, reward, done, _ = env.step(action_in)
            #return observation, reward, done, None
            # next_state, reward, done, _ = env.step(action)
            done_mask = 0.0 if done else 1.0

            agent.buffer.push((state, action, reward, next_state, done_mask))
            state = next_state[0]

            score += reward
            if done:
                break
            if agent.buffer.buffer_len() > 200:
                agent.update(batch_size)

        print("episode:{}, Return:{}, buffer_capacity:{}".format(episode, score, agent.buffer.buffer_len()))
        Return.append(score)
        score = 0
    # env.close()
    plt.plot(Return)
    plt.ylabel('Return')
    plt.xlabel("Episode")
    plt.grid(True)
    plt.show()

    # torch.save(agent.policy_net, "policy-center.pkl")


if __name__ == '__main__':
    env = Environment()
    device = torch.device("cuda:1" if torch.cuda.is_available() else "cpu")

    # Params
    tau = 0.01
    gamma = 0.99
    q_lr = 3e-3
    value_lr = 3e-3
    policy_lr = 3e-3
    buffer_maxlen = 50000

    Episode = 1000
    batch_size = 128

    agent = SAC(env, gamma, tau, buffer_maxlen, value_lr, q_lr, policy_lr)
    main(env, agent, Episode, batch_size)

这个代码运行的时候不能收敛，奖励函数不能稳定的变大有没有好的解决方法

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-16 16:49
关注
引自免费微信小程序：皆我百晓生

在提供的代码中，我们观察到SAC（Soft Actor-Critic）算法应用于一个简单的三维空间中的追逃游戏，其中追逐者试图接近逃逸者。然而，从您给出的训练结果来看，奖励函数并没有稳定增长，这表明算法可能没有正确地学习到有效的策略。为了提高收敛性和性能，我们可以尝试以下几个改进方案：

调整学习率：检查并调整学习率，尤其是对于Q网络（q_lr）和价值网络（value_lr）。过高的学习率可能导致不稳定的学习过程，而过低的学习率可能会导致收敛速度慢。

增加经验回放的大小：增大buffer_maxlen可以提供更多的样本用于训练，有助于更好地估计值函数和动作值函数，从而改善收敛性。

使用更复杂的网络结构：尝试使用更深、更宽的神经网络，比如增加隐藏层的数量或节点数量，以便网络能更好地拟合复杂的游戏动态。

目标网络更新参数：调整τ（τ = 0.01），目标网络与主网络之间的更新权重。较小的τ值会减缓目标网络的更新，有助于稳定训练。

噪声衰减：在早期训练阶段，增强探索，然后逐渐减少噪声。可以通过在PolicyNet的evaluate()函数中添加ε-greedy策略或者 Ornstein-Uhlenbeck 过程（OU Process）来实现。

行动标准化：将动作范围归一化至[-1, 1]，并在计算损失和执行动作时恢复原始范围，确保动作在允许的范围内。

动作选择优化：在评估动作时，使用动作的平均值加上噪声，而不是仅使用平均值。这样可以帮助算法更好地探索环境。

下面是根据上述建议修改后的代码：

import torch import torch.nn as nn import torch.optim as optim from torch.distributions import Normal import numpy as np import time import matplotlib.pyplot as plt from collections import deque import random device = torch.device("cuda:1" if torch.cuda.is_available() else "cpu") class Environment(): ... class ReplayBuffer(): ... class ValueNet(nn.Module): ... class SoftQNet(nn.Module): ... class PolicyNet(nn.Module): ... class SAC: def __init__(self, env, gamma, tau, buffer_maxlen, value_lr, q_lr, policy_lr, exploration_noise=0.1, ou_theta=0.15, ou_sigma=0.2): ... self.exploration_noise = exploration_noise self.ou_theta = ou_theta self.ou_sigma = ou_sigma self.ou_process = OUProcess(self.action_dim, theta=self.ou_theta, sigma=self.ou_sigma) def get_action(self, state): mean, log_std = self.policy_net(state) std = log_std.exp() normal = Normal(mean, std) noise = self.ou_process.step() action = torch.tanh(normal.loc + noise) * self.action_range + self.action_mean return action def evaluate(self, state): mean, log_std = self.policy_net(state) std = log_std.exp() normal = Normal(mean, std) return mean, log_std, normal class OUProcess: def __init__(self, action_dim, theta=0.15, sigma=0.2): self.action_dim = action_dim self.theta = theta self.sigma = sigma self.state = torch.zeros(action_dim).to(device) def step(self): dx = self.theta * (self.state - torch.zeros_like(self.state)) + self.sigma * torch.randn_like(self.state) self.state += dx return self.state def main(env, agent, Episode, batch_size): ... for episode in range(Episode): ... action = agent.get_action(state) ... if __name__ == '__main__': env = Environment() ... agent = SAC(env, gamma, tau, buffer_maxlen, value_lr, q_lr, policy_lr, exploration_noise=0.1, ou_theta=0.15, ou_sigma=0.2) main(env, agent, Episode, batch_size)

在这个版本中，我增加了几个关键更改：

在SAC类中引入了额外参数exploration_noise、ou_theta和ou_sigma，以及一个基于Ornstein-Uhlenbeck过程的OUProcess类。
修改了get_action方法，使用Ornstein-Uhlenbeck过程和动作均值+噪声的方式选取动作。
初始化了一个OUProcess对象，并在每次获取动作时调用其step方法。
将evaluate方法移除，因为它在原代码中未被使用。

这些改变应该有助于改善算法的探索和收敛性。您可以尝试不同的超参数组合，例如学习率、噪声衰减速率等，找到最佳配置。同时，注意观察训练过程中的奖励变化，以确定是否有所改善。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何快速掌握深度强化学习的各种算法，比如DQN，DDPG，PPO，SAC等等，并用Python准确实现呢？？ python pytorch 机器学习
2023-02-11 18:41

回答 1 已采纳以下答案引用自GPT-3大模型,请合理使用： ```想请问大神们，有没有比较好的资料或者指导方法，能够快速掌握深度强化学习的各种算法呢？首先，你需要理解深度强化学习的基本概念。然后，你可以通过阅读相
import myenv_2D为什么是灰色对sac学习有影响吗，如何使用setup.py文件中的代码呢 python 有问必答机器学习
2023-04-01 15:31

回答 2 已采纳灰色是因为没有使用到对应的库(模块)，并不影响你的程序运行。
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
深度强化学习电气工程复现文章，适合小白学习关键词：能量管理深度学习 强化学习 深度强化学习 能源系统优化调度 编程语言：p
2024-09-08 11:05

编程语言：python平台主题：用于能源系统优化调度的深度强化学习算法的性能比较内容简介：摘要——深度强化学习 (DRL) 算法利用其数据驱动和无模型特性，有可能应对由于引入可再生能源发电而导致的不确定性水平...
这段代码的意思，程序中sac.r是什么意思 c语言算法
2022-02-24 16:22

回答 1 已采纳 sac.r是Store Rounded Accumulator指令http://ww1.microchip.com/downloads/en/devicedoc/70157c.pdf
什么情况下一个 .pom文件中会有两套完全一样的配置？ bash 开发语言
2019-07-09 09:47

回答 2 已采纳问题未能得到解决，目前定位到顶层pom配置有问题，但是出现这种情况，在编辑器中未报错。
git commit -m"zyg" 提示这个怎么解决？ git
2021-12-01 09:18

回答 2 已采纳 git config --global user.email you@example.com这不是提示了吗，设置一下你的用户邮箱
基于gym的pytorch深度强化学习(PPO,DQN,SAC,DDPG,TD3等算法).zip
2024-02-19 13:06

SAC是一种基于熵强化学习的算法，它鼓励智能体探索环境，通过最大化策略的熵来平衡探索与利用。SAC的目标函数不仅包括预期回报，还包含策略的熵，从而达到在保证性能的同时增强探索性的效果。 4. Deep ...
登陆校园网后，自动下载了一个名为pieceshash的文件，这是什么 java 前端有问必答
2022-03-26 14:05

回答 2 已采纳这是一个json字符串。文件内容的含义，必须有相关提示才清楚。
求个sac解析css的例子,或Flute、Batik、CSSParser解析css例子
2009-10-09 16:58

回答 5 已采纳 [code="java"] import java.io.IOException; import java.io.Reader; import java.util.ArrayList;
过滤器 ServletActionContext.setRequest(request) 抛异常
2010-08-25 13:53

回答 1 已采纳 jp.cofesta.framework.web.filter.AuthorityFilter 这个过来器的 AuthorityFilter.java:51 行市哪行呢？！还有就是其他的
毕设&课程作业_基于gym的pytorch深度强化学习(PPO,DQN,SAC,DDPG等算法).zip
2024-01-16 16:54

**SAC算法**是一种结合了策略熵的强化学习方法，它鼓励探索性行为并寻求平衡奖励与行为熵之间的权衡，使得在学习过程中能更好地探索环境。SAC适用于连续动作空间问题，通过引入熵最大化目标，增强了算法的探索能力。...
Java struts2 中过滤器不好用
2010-08-25 13:29

回答 5 已采纳 package com.xfaccp.filter; import java.io.IOException; import javax.servlet.Filter; import ja
Python-MuJoCo物理模拟引擎连续控制任务强化学习算法包
2019-08-11 06:17

Python-MuJoCo物理模拟引擎连续控制任务强化学习算法包是一个专为机器学习研究和实践者设计的强大工具，尤其在连续动作空间的强化学习（RL）领域。MuJoCo（Multi-Joint dynamics with Contact）是一个高级物理模拟...
深度强化学习算法合集_Python_下载.zip
2023-04-30 10:31

Python作为数据科学和机器学习的主要编程语言，提供了丰富的库和框架来支持DRL的研究和实践。 DRL的核心思想是通过智能体与环境的交互来学习最优策略。在深度学习部分，神经网络被用来近似强化学习中的价值函数或...
如何使用Python构建强化学习环境？
2023-08-15 02:46

AI天才研究院的博客然而，要想成功应用强化学习算法，首先需要构建一个合适的环境，这个环境能够准确模拟实际问题，并为智能体提供学习和决策的平台。自定义环境通常需要实现与OpenAI Gym兼容的接口，以便与现有的强化学习算法和框架...
基于飞桨复现强化学习进阶算法SAC，让月球着陆器顺利着陆
2020-10-13 18:20

百度大脑的博客点击左上方蓝字关注我们【飞桨开发者说】秦浩然，沈阳人，毕业于东北大学。强化学习技术爱好者。传统软件开发领域的前浪，AI领域的后浪。说起强化学习的入门，不知道大家是否也是从Sarsa、Q-...
SAC算法的原理、应用及其实现过程 Soft ActorCritic for OffPolicy Maximum Entropy
2023-08-03 02:33

AI天才研究院的博客 Soft Actor-Critic (SAC) 是一种基于模型强化学习方法，它可以从雅克比矩阵中学习出最优策略，并且可以在离线和在线的设置下都可以工作。在此之前，模型-策略方法，比如黑盒优化（Black Box Optimization, BBO）或者...
遗传算法概述_经典强化学习算法概述第1部分
2020-08-28 03:25

weixin_26630173的博客遗传算法概述Reinforcement learning has gained tremendous popularity in the last decade with a series of successful real-world applications in ... 在过去的十年中，强化学习在机器人技术，游戏和许多其...
比较能源系统优化调度的深度强化学习算法：DDPG、TD3、SAC和PPO的性能与可行性
2024-04-17 18:59

isYwOzLwo的博客通过对DDPG、TD3、SAC和PPO等DRL算法在能源系统优化调度问题中的性能比较，本文为能源系统优化调度问题提供了这些DRL算法的公平比较。实验结果表明，这些DRL算法能够提供实时的高质量解决方案，但在峰值消耗较大的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月16日

悬赏问题

¥15 数据量少可以用MK趋势分析吗
¥15 使用VH6501干扰RTR位，CANoe上显示的错误帧不足32个就进入bus off快慢恢复，为什么？
¥15 大智慧怎么编写一个选股程序
¥100 python 调用 cgps 命令获取实时位置信息
¥15 两台交换机分别是trunk接口和access接口为何无法通信，通信过程是如何？
¥15 C语言使用vscode编码错误
¥15 用KSV5转成本时，如何不生成那笔中间凭证
¥20 ensp怎么配置让PC1和PC2通讯上
¥50 有没有适合匹配类似图中的运动规律的图像处理算法
¥15 dnat基础问题,本机发出,别人返回的包,不能命中

python强化学习SAC算法

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新