近端策略优化 PPO | 损失值计算问题

近端策略优化算法（PPO）中， actor网络的损失计算公式中，取ratioadvantage和裁切后ratioadvantage的较小者，当优势函数大于0时，ratio的裁切起到了作用，目的是限制权重更新步长。然而，当优势函数小于0时，假设当下价值和平均价值相差甚远（我发现某些episode中我的优势函数的值是一个非常大的负数），且ratio的值也很大，此时ratioadvantage将是一个非常大的负数，取最小值时将取到ratioadvantage，貌似ratio的裁切在advantage<0时不起作用，导致每次回传的损失值都相当大。这个现象是合理的吗，我增加了动态学习率等措施来防止过大的损失值被学习，但效果并不理想。

核心代码部分：

state, action_cont, action_disc, next_state, reward, done = zip(*samples)
action_cont = torch.FloatTensor(action_cont).to(self.device)
original_old_continuous_log_probs = continuous_dist0.log_prob(action_cont.unsqueeze(1))
new_continuous_log_probs = continuous_dist.log_prob(action_cont.unsqueeze(1))

ratio = torch.exp(new_continuous_log_probs - original_old_continuous_log_probs)
surr1 = ratio * original_advantage
surr2 = torch.clamp(ratio, 1 - self.eps, 1 + self.eps) * original_advantage
actor_loss = torch.mean(-torch.min(surr1, surr2)).float()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

28条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Kwan的解忧杂货铺@新空间代码工作室 2024-06-29 10:16
关注
获得0.45元问题酬金
上午好☀️☀️☀️️
本答案参考ChatGPT-3.5

在近端策略优化（PPO）算法中，actor网络的损失计算公式中，通过取ratioadvantage和裁切后ratioadvantage的较小者，可以限制权重更新的步长。然而，在优势函数小于0时，ratioadvantage将是一个非常大的负数，而且取最小值时会选择ratioadvantage，导致每次回传的损失值都相当大。这个现象在某些情况下是合理的，但出现过大的损失值可能会影响学习的效果。

解决方案如下：

检查优势函数计算的准确性: 确保在计算优势函数时没有出错。检查环境模型、奖励计算以及价值函数的实现。
调整优势函数的计算方法: 如果某些episode中优势函数的值非常大，可以考虑使用其他的计算方法，例如使用相对优势函数或者对优势函数进行归一化处理。
调整超参数: 调整PPO算法中的超参数，例如epsilon（裁切参数）和学习率等，可以通过交叉验证或者调参技巧来尝试寻找更合适的超参数组合。
添加正则化项: 在损失函数中添加一些正则化项，例如L2正则化，可以帮助限制权重更新的范围，防止过大的损失值。

修改后的代码如下：

state, action_cont, action_disc, next_state, reward, done = zip(*samples) action_cont = torch.FloatTensor(action_cont).to(self.device) original_old_continuous_log_probs = continuous_dist0.log_prob(action_cont.unsqueeze(1)) new_continuous_log_probs = continuous_dist.log_prob(action_cont.unsqueeze(1)) ratio = torch.exp(new_continuous_log_probs - original_old_continuous_log_probs) clipped_ratio = torch.clamp(ratio, 1 - self.eps, 1 + self.eps) * original_advantage surr1 = ratio * original_advantage surr2 = clipped_ratio * original_advantage actor_loss = -torch.mean(torch.min(surr1, surr2)).float()

请注意，这里的损失计算公式和代码只是一个示例，具体的修改方法还需要根据实际情况进行调整。同时，还建议仔细检查其他部分的代码实现，包括价值函数的更新等，以确保算法的正确性。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何快速掌握深度强化学习的各种算法，比如DQN，DDPG，PPO，SAC等等，并用Python准确实现呢？？ python pytorch 机器学习
2023-02-11 18:41

回答 1 已采纳以下答案引用自GPT-3大模型,请合理使用： ```想请问大神们，有没有比较好的资料或者指导方法，能够快速掌握深度强化学习的各种算法呢？首先，你需要理解深度强化学习的基本概念。然后，你可以通过阅读相
linux多网卡及多拨号的问题 linux ubuntu 网络
2016-12-21 01:31

回答 2 已采纳 http://blog.csdn.net/yuanbinquan/article/details/51468886
强化学习代码报错，typerror python
2022-10-05 11:55

回答 1 已采纳 StopTrainingOnRewardThreshold 不是都提示说传递了一个不期望的参数 'treshhold_type' Ctrl +鼠标左键点进去看下这个方法都需要哪些参数啊
PPO-基于Pytorch实现裁剪目标近端策略优化-附项目源码+流程教程-优质项目分享.zip
2024-05-28 06:13

PPO的核心在于其近端策略优化，它限制了新旧策略之间优势函数的期望变化。PPO的目标函数包含两个部分：一个是原始的优势函数乘以一个门控项，另一个是值函数的损失。门控项是新旧策略概率比的Clipped Surrogate Loss...
报错：'NoneType' object has no attribute 'shape' opencv python
2021-09-25 13:30

回答 2 已采纳这个是已经处理完了，读取的数据为空，所以为nonetype
近端策略优化(PPO)
2024-05-05 01:32

AI天才研究院的博客强化学习（Reinforcement Learning，RL）是机器学习的一个重要分支，它研究的是智能体如何在与环境的交互中学习并做出最佳决策。近年来，深度强化学习（Deep Reinforcement Learning，DRL）的兴起，将深度学习与强化...
第一章：近端策略优化（PPO）算法原理详解
2024-05-01 01:55

AI天才研究院的博客第一章：近端策略优化（PPO）算法原理详解 1. 背景介绍 1.1 强化学习与策略梯度方法强化学习 (Reinforcement Learning, RL) 致力于让智能体在与环境的交互中学习到最优策略，从而最大化累积奖
ChatGPT强化学习大杀器——近端策略优化（PPO）
2023-03-06 10:00

JarodYv的博客近端策略优化是当前最先进的强化学习 (RL) 算法。这种优雅的算法可以用于各种任务，并且已经在很多项目中得到了应用，最近火爆的ChatGPT就采用了该算法。本文重点讲解近端策略优化算法，并用PyTorch从头实现一遍。
超级马里奥兄弟的近端策略优化（PPO）算法
2023-10-27 23:20

《超级马里奥兄弟》是经典的电子游戏，其在人工智能领域的应用主要体现在使用近端策略优化（Proximal Policy Optimization，简称PPO）算法来训练游戏角色的行为。PPO是一种强化学习（Reinforcement Learning, RL）中...
PPO(Proximal Policy Optimization)算法原理及实现,详解近端策略优化
2024-04-04 10:20

蓝天白云大海沙滩Herman的博客接着上面的讲，PG方法一个很大的缺点就是参数更新慢，因为我们每更新一次参数都需要进行重新的采样，这其实是中on-policy的策略，即我们想要训练的agent和与环境进行交互的agent是同一个agent；与之对应的就是off-...
PPO近端策略优化算法概述
2021-09-12 11:56

北极与幽蓝的博客 Policy Gradient算法存在两个问题，一是蒙特卡罗只能回合更新，二是on-...总的来说，PPO(Proximal Policy Optimization)就是采用Actor-Critic架构和重要性采样对PG进行改进的算法，也是OpenAI默认的强化学习算法。
【强化学习】PPO：近端策略优化算法
2023-12-24 20:51

BQW_的博客近端策略优化算法论文地址：https://arxiv.org/pdf/1707.06347.pdf。
PPO算法:近端策略优化算法原理分析
2024-04-07 01:44

AI天才研究院的博客强化学习是机器学习的一个重要分支,在许多领域...这些算法通过优化策略函数来最大化累积奖赏,从而学习出最优的行为策略。在强化学习算法中,PPO(Proximal Policy Optimization)算法是近年来最流行和有影响力的算法之一。
用近端策略优化（PPO）实现AI大语言模型的无监督学习
2024-03-16 12:22

AI天才研究院的博客随着计算机技术的飞速发展，人工智能（AI）已经成为了当今科技领域的热门话题。从图像识别、自然语言处理到自动驾驶等领域，AI技术正逐渐改变着我们的生活。在这个过程中，深度学习技术的出现为AI的发展提供了强大的...
近端策略优化（PPO）：深度强化学习的核心技术
2024-02-28 01:19

AI天才研究院的博客深度强化学习（Deep Reinforcement Learning，DRL）是近年来人工智能领域的热门研究方向，它结合了深度学习的强大表征能力和强化学习的决策能力，使得机器能够在复杂的环境中自我学习和决策。然而，深度强化学习的...
强化学习常见面试题：近端策略优化（proximal policy optimization，PPO）算法
2024-08-06 09:52

小城哇哇的博客使用另外一种分布，来逼近所求分布的一种方法，算是一种期望修正的方法，公式如下：我们在已知qqq的分布后，可以使用上式计算出从ppp分布的期望值。也就可以使用qqq来对ppp进行采样了，即重要性采样。因为这个行业...
该存储库为OpenAI健身房环境提供了近端策略优化（PPO）的最小PyTorch实现，具有剪裁目标
2023-10-21 16:40

而近端策略优化（Proximal Policy Optimization，PPO）是强化学习中一种高效的优化算法，由OpenAI团队提出，其主要优点在于能够在保证稳定性的前提下有效地更新策略。标题提到的“最小PyTorch实现”意味着这个存储...
【论文阅读】强化学习—近端策略优化算法(Proximal Policy Optimization Algorithms, PPO)
2023-06-19 14:26

小叮当了个当的博客 PPO论文阅读笔记
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月29日

悬赏问题

¥15 单纯型python实现编译报错
¥15 c++2013读写oracle
¥15 c++ gmssl sm2验签demo
¥15 关于模的完全剩余系(关键词-数学方法)
¥15 有没有人懂这个博图程序怎么写，还要跟SFB连接，真的不会，求帮助
¥15 PVE8.2.7无法成功使用a5000的vGPU，什么原因
¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音

近端策略优化 PPO | 损失值计算问题

28条回答 默认 最新

问题事件

悬赏问题

28条回答默认最新