A2C模型训练不收敛

问题：关于Advantage actor critic（pytorch + gym）模型训练死活不收敛，谁能帮忙看看是为啥？

源码：（复制粘贴可直接运行）

# -*- coding: utf-8 -*-
import gym
import torch
import torch.nn as nn
import torch.nn.functional as F
import time
from torch.distributions import Categorical

# 折扣率
GAMMA = 0.99
# 学习率
LR_a = 0.001
LR_c = 0.01
# 总epoch数
EPISODE = 800
# 单次运行环境设计最大步数，避免一直跑不停
STEP = 3000
# 测试10次取平均
TEST = 10


# 共享网络层
class share_layer(nn.Module):
    def __init__(self):
        super(share_layer, self).__init__()
        self.linear1 = nn.Linear(4, 32)  # 4指的是state的维度
        nn.init.normal_(self.linear1.weight, 0, 0.1)
        nn.init.constant_(self.linear1.bias, 0.1)

    def forward(self, out):
        out = self.linear1(out)
        out = F.relu(out)
        return out


class PGNetwork(nn.Module):
    def __init__(self, sl):
        super(PGNetwork, self).__init__()
        self.sl = sl
        # 策略网络，输出动作概率
        self.fc2 = nn.Linear(32, 2)
        # 初始化权重取正态分布方法
        nn.init.normal_(self.fc2.weight, 0, 0.1)
        # 初始化偏置取常数0.1
        nn.init.constant_(self.fc2.bias, 0.1)

    def forward(self, state):
        x = self.sl(state)
        x = self.fc2(x)
        action_p = F.softmax(x, dim=1)
        return action_p


class Actor(object):
    def __init__(self, env, sl):
        self.state_dim = env.observation_space.shape[0]
        self.action_dim = env.action_space.n
        self.network = PGNetwork(sl)
        # adam优化器
        self.optimizer = torch.optim.Adam(self.network.parameters(), lr=LR_a)

    def choose_action(self, observation):
        """选择动作输出，返回动作以及动作对应概率取对数"""
        # 调整张量shape
        observation = torch.from_numpy(observation).float().unsqueeze(0)
        # 策略网络预测
        probs = self.network(observation)
        # 随机选择动作
        m = Categorical(probs)
        action = m.sample()
        # 计算动作对应概率的对数值
        log_prob = torch.log(probs.squeeze().gather(0, action))
        return action.item(), log_prob

    def learn(self, log_prob, td_error):
        # 这里是否要取负号呢
        loss_a = -log_prob * td_error

        self.optimizer.zero_grad()
        loss_a.backward()
        self.optimizer.step()


class QNetwork(nn.Module):
    def __init__(self, sl):
        super(QNetwork, self).__init__()
        self.sl = sl
        # 价值网络，输出为状态价值1*1
        self.fc2 = nn.Linear(32, 1)
        nn.init.normal_(self.fc2.weight, 0, 0.1)
        nn.init.constant_(self.fc2.bias, 0.1)

    def forward(self, state):
        x = self.sl(state)
        value = self.fc2(x)
        return value


class Critic(object):
    def __init__(self, env, sl):
        self.state_dim = env.observation_space.shape[0]
        self.action_dim = env.action_space.n
        self.network = QNetwork(sl)
        self.optimizer = torch.optim.Adam(self.network.parameters(), lr=LR_c)
        self.loss_func = nn.MSELoss()

    def train(self, state, reward, next_state):
        """训练critic，返回值td_error用于策略网络进化"""
        s, s_ = torch.from_numpy(state).float(), torch.from_numpy(next_state).float()
        v = self.network(s)
        v_ = self.network(s_)
        loss_q = self.loss_func(v, reward + GAMMA * v_)

        self.optimizer.zero_grad()
        loss_q.backward()
        self.optimizer.step()

        with torch.no_grad():
            # 计算td_error
            td_error = reward + v_ - v

        return td_error


def main():
    env = gym.make("CartPole-v1")
    sl = share_layer()
    actor = Actor(env, sl)
    critic = Critic(env, sl)

    for episode in range(EPISODE):
        state = env.reset()

        for step in range(STEP):
            action, log_prob = actor.choose_action(state)
            next_state, reward, done, _ = env.step(action)

            # ---------原始reward很难收敛，这里更改了reward的计算方法,如果认为不需要可以直接注释掉---------
            x, x_dot, theta, theta_dot = next_state
            r1 = (env.x_threshold - abs(x)) / env.x_threshold - 0.8
            r2 = (env.theta_threshold_radians - abs(theta)) / env.theta_threshold_radians - 0.5
            reward = r1 + r2
            # ----------------------------------------------------------------------------------

            td_error = critic.train(state, reward, next_state)
            actor.learn(log_prob, td_error)
            state = next_state

            if done:
                break
        # 50代测试一次效果
        if episode % 50 == 0:
            total_reward = 0
            for i in range(TEST):
                state = env.reset()
                for j in range(STEP):
                    # env.render()  # 绘图
                    action, _ = actor.choose_action(state)
                    state, reward, done, _ = env.step(action)
                    total_reward += reward
                    if done:
                        break
            ave_reward = total_reward / TEST
            print("episode:", episode, ";Evaluation Average Reward:", ave_reward)


if __name__ == "__main__":
    time_start = time.time()
    main()
    time_end = time.time()
    print("Total time is ", time_end - time_start, 's')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
白驹_过隙算法领域新星创作者 2022-06-17 08:18
关注
学习率调低点看看

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

A2C模型训练不收敛 pytorch 机器学习神经网络
2022-06-17 01:14

回答 1 已采纳学习率调低点看看
树莓派raspi-config找不到A2选项GL driver linux
2022-12-17 10:37

回答 1 已采纳分析：1。树莓派各種型號的規格不同，不一定有 OPEN GL。2。找一些 OPEN GL 測試工具。3。可能树莓派 OPEN GL 的功能不完整，一些功能無法使用。4。測試有沒有其他驅動是可以使用的。
为什么没有c？而是a2yz c语言
2022-01-04 15:56

回答 2 已采纳 strcpy(a, b)把地址从b开始, 到\0结束的字符串, 覆盖到地址a开始的字符串的地址. 如果a的长度大于b, a后面的值都会被清除覆盖掉. 这里用2\0这两个值覆盖了原来的bc\0三个值.
强化学习——PyTorch 实现 Advantage Actor-Critic (A2C)
2022-07-26 16:31

八岁爱玩耍的博客本博客的理论知识来自王树森老师《深度强化学习》，这本书写得简直太好了，强烈推荐，只是现在还在校对没出版，可能有些小瑕疵，但并不影响阅读和学习。
python新手，在训练模型、看库函数的源代码时看到“model_hash”,不知道是什么意思 python 人工智能机器学习神经网络自然语言处理
2019-08-09 09:52

回答 2 已采纳大概就是加密：后面那段字是前面加密得到的结果。具体百度一下(散列/hash加密）使任何文件，字符都加密为特定长度的密文。主要为了省储存空间，而且是不可逆的（不能破解的）有时也会出现不同文件
Dockerfile启动PHP容器，mysqli和a2enmod重写不起作用 apache docker php
2018-09-15 13:55

回答 1 已采纳 As suggested by Alex Karshin, there was 2 problems. I need to rebuild the docker image. I don't
Java问题，这里的Animal a2那条和下面的a2语句不知道 java
2022-10-01 09:28

回答 1 已采纳你问的有点含糊，具体代码的逻辑也不清楚，但我知道肯定是继承，多态，还有方法重新这三个方面的问题，如若有问题，可以私信我，帮你看看具体代码，具体帮你解决！
AI人工智能原理与Python实战：Python人工智能模型训练
2023-12-27 17:50

禅与计算机程序设计艺术的博客 人工智能(Artificial Intelligence, AI)是一门研究如何让计算机模拟人类智能的学科。人工智能的主要目标是开发一种可以理解自然语言、学习自主思考、进行决策和解决问题的计算机系统。人工智能的发展涉及到多个领域...
如何将训练好的BP神经网络模型保存并可以在其他py文件中直接调用？ python 有问必答机器学习神经网络
2021-06-09 10:53

回答 2 已采纳这个需要建立字典封装起来
为什么a2的储存单元比a1的大？ c语言
2022-02-19 14:55

回答 2 已采纳表面上看，都是三个字符，但是a2有一个隐藏的结束符还多占用以恶空间，因此a2的大，该字符是结束符'\0'
通过for循环来对变量命名成a1,a2,a3... c++ c语言数据挖掘神经网络
2020-03-12 17:52

回答 2 已采纳感觉应该是这样的 eval(['a' num2str(i) '=data(:,' num2str(i) ')']); 写在for语句里面
第三章：AI大模型的核心技术3.1 模型训练
2024-01-12 01:13

禅与计算机程序设计艺术的博客 AI大模型的核心技术之一是模型训练。模型训练是指使用大量数据和计算资源来优化模型参数，使其在未见数据上的表现最佳。在过去的几年里，随着数据规模和计算能力的增长，AI大模型的规模也逐渐增加，从原来的几兆参数...
java代码，为什么输入aabbcc不能出现a2b2c2，如何解决？ java 有问必答
2022-04-05 00:52

回答 3 已采纳你题目的解答代码如下： public static void main(String[] args) { Scanner n =new Scanner(System.in);
神经网络模型的工作过程,神经网络模型训练过程
2022-08-21 17:35

「已注销」的博客人工神经网络有很多种，我只会最常用的BP神经网络。...利用该软件，你可以在一周之内就学会建立你自己的人工神经网络解题模型。如果你想自己编程实现人工神经网络，那就需要找一本有关的书籍，专门看神经网络
人工智能实验bp神经网络,BP人工神经网络模型
2022-10-20 19:01

aifans_bert的博客谷歌人工智能写作项目：小发猫 2、BP人工神经网络人工神经网络（artificialneuralnetwork，ANN）指由大量与自然神经系统相类似的神经元联结而成的网络，是用工程技术手段模拟生物网络结构特征和功能特征的一类人工...
从统计语言模型到预训练语言模型---预训练语言模型（Transformer）
2023-09-22 13:18

hanscalZheng的博客预训练模型的概念在计算机视觉领域并不陌生，通常我们可以在大规模图像数据集上预先训练出一个通用模型，之后再迁移到类似的具体任务上去，这样在减少对图像样本需求的同时，也加速了模型的开发速度。...
Centerfusion算法环境配置及模型训练
2022-12-16 19:09

HIT_Vanni的博客 Centerfusion算法环境配置及模型训练概述 1. 配置conda环境 1.1 新建conda环境 1.2 安装cuda 1.3 安装cudnn 1.4 安装pytorch 1.5 安装cocoapi 2. 配置Centerfusion 2.1 克隆CenterFusion的github库 2.2 安装依赖包 ...
神经网络不收敛的 11 个原因，加实践感悟
2021-05-09 08:39

AI视觉网奇的博客神经网络不收敛的 11 个原因，加实践感悟如果有说法不妥的，还望在评论区留言指点，切磋交流，十分感谢! 网上有朋友的博客：https://blog.csdn.net/lc013/article/details/116401778 列举了神经网络不收敛的 11 ...
强化学习—— 基于baseline的策略梯度（Reinforce算法与A2C）
2022-04-12 14:34

CyrusMay的博客强化学习—— 基于baseline的策略梯度（Reinforce算法与A2C）1. baseline的推导2. 策略梯度的蒙特卡洛近似3. baseline的选取4. Reinforce算法4.1 基本概念4.2 算法的训练流程 1. baseline的推导策略网络为：π(a∣...
语言大模型的分布式训练与高效微调指南
2023-11-29 09:28

OneFlow深度学习框架的博客最近语言大模型（LLM）异常火爆，一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求，出现了许多出色的开源代码库，以HuggingFace生态系统为中心，这些代码库还包括...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月17日

悬赏问题

¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥200 uniapp长期运行卡死问题解决
¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败

A2C模型训练不收敛

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新