强化学习DDPG算法训练总是选择边界动作是什么原因造成的？

使用DDPG算法，env文件自己写的，代码可以运行，但是训练到最后actor总是选择action_space的边界，这可能是哪些原因造成的？

之前使用DQN算法的时候，也出现了这种现象，当时是两层的网络，隐含层节点也比较少，后来增加了层数和隐含层节点数，结果有变化，但也不是好的或者说没有选择正确的动作，所以怀疑是不是因为DQN对动作空间离散化粒度太小造成的，现在换成了DDPG，想着不对动作空间进行离散化，直接使用连续动作空间会好一些，结果总是选择边界值（action_bound.high），看一些帖子说调参，也进行了尝试，发现没有多大改善。

另外，由于动作空间的上下限并不是对称的，所以尝试修改了输出层的激活函数，原来为tf.nn.tanh，修改为tf.nn.relu有些变化，但是结果也不正确。

请大神不吝赐教，拜谢。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
liudinglldd 2021-05-17 15:52
关注
目前好像得到了解决，主要就是两点：

1、网络的输入输出都是归一化之后的，buffer里的{s,a,r,s_}都是同一个数量级的，

2、修改reward能指导网络正确选择动作进行输出

以上解决方案，仅供参考。

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

除了加BN层还有什么方法可以解决输出取边界值的问题呢？ python 机器学习神经网络
2023-02-20 16:17

回答 1 已采纳此回答引用GPT下面介绍一些方法来解决神经网络输出取边界值的问题： 1.改变激活函数：选择不同的激活函数可能会影响神经网络的输出范围。比如ReLU激活函数在输入大于0时输出正数，小于0时输出0，所以如
人工智能导论模型与算法书的课后题实在不会好商量支持向量机机器学习svm 分类边界错误率分离边界发生变化实现，考虑一个在二维特征空间中的二类分析问题，训练集包含八个样本其在二维空间中的分布如图人工智能机器学习
2022-05-19 10:12

回答 1 已采纳理解支持向量，bargin的含义就行，支持向量机的分类超平面只和支持向量样本有关
训练精度和测试精度相差2%是过拟合吗？深度学习目标检测神经网络
2022-10-18 16:20

回答 2 已采纳 1.7%也不算多啊，数据集小一些或者数据集分布偏差点就这样了是否还是得看loss曲线或acc曲线来判断。比如训练集loss不断下降，验证集先下降后上升，就是经典的过拟合现象；或者验证集的loss基本上
强化学习调参技巧一： DDPG算法训练动作选择边界值_分析解决
2021-07-08 10:24

汀、人工智能的博客原因： actor网络输出用tanh，将动作规范在[-1,1]，然后线性变换到具体的动作范围。其次，tanh激活区是有范围的，你的预激活变量（输入tanh的）范围太大，进入了tanh的饱和区，会导致梯度消失，而且tanh输出的自然...
基于模拟退火粒子群优化算法的拆卸序列规划，如何界定边界约束图模型？算法
2016-03-08 01:00

回答 1 已采纳 http://wenku.baidu.com/link?url=5MxC_9OOvvyxQ5TRfs_L9RKyQFJB6mhUoxyL8aGp7uop7HobxlVeh4xfDghUvU_JE1fk
求数组a[n][m]的边界，代码是什么 c++
2022-07-29 11:24

回答 2 已采纳求数组a[n][m]的边界====怎么理解这个“边界”啊？是求数组所有边界元素的总和？ #include<bits/stdc++.h> using namespace std; int a
用plt.contourf 绘制等高图图例出现空白，是什么原因 jupyter python 大数据
2022-10-30 10:56

回答 1 已采纳关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：plt.contourf（）
如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法
2023-07-14 15:17

汀、人工智能的博客如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法
关于决策边界上点的一些问题人工智能数据挖掘机器学习
2022-02-27 18:19

回答 1 已采纳对于判别式模型来说，一般决策边界上的样本比较有价值。例如支持向量机只取决于离决策边界最近的样本，这些样本叫做支持向量；但对于生成式模型来说，并不依靠决策边界进行决策，所以样本一视同仁，例如各种概率模型
（matlab）索引超出数组边界，怎么解决？ matlab 有问必答
2023-04-17 17:59

回答 4 已采纳这个错误可能是因为在嵌入数字水印时，小波系数的大小与数字水印的大小不匹配导致的。可以检查一下代码中的循环是否正确，以及数字水印的大小是否与小波系数的大小匹配。
初探强化学习（5）DDPG算法。包含逐行分析Pytorch代码和算法分析
2022-02-28 15:44

难受啊！马飞...的博客我自己总结的DDPG算法流程图和算法分析 2.1 DDPG算法的数据流向图我自己整理的DDPG算法的数据走向流程图其中，紫色直线表示训练策略Actor网络每个阶段数据的流向，紫色虚线表示策略Actor网络整体数据的流向。...
深度强化学习调参技巧：以DQN、DDPG、TD3、PPO、SAC等算法为例
2023-07-14 15:08

汀、人工智能的博客深度强化学习调参技巧：以D3QN、DDPG、TD3、PPO、SAC算法为例
如何选择深度强化学习算法？MuZero/SAC/PPO/TD3/DDPG/DQN/等（2021-04）
2024-01-03 01:10

u013250861的博客赶时间请直接看加粗的四种算法，它们占据不同的生态位，请根据实际任务需要去选择他们，在强化学习的子领域（多智能体、分层强化学习、逆向强化学习也会以它们为基础开发新的算法）：离散动作空间推荐：Dueling ...
强化学习-DDPG、TD3
2023-03-10 22:55

下一个拐角%的博客磨菇书DDPG
没有解决我的问题, 去提问

悬赏问题

¥15 github上的这个C语言项目如何跑起来
¥15 java 判断某个数区间是否存在
¥15 appium控制多个雷电模拟器问题
¥15 C# iMobileDevice
¥15 谁会做这个啊#ensp#Boson NetSim
¥15 如何编写针对TPS6503320FRGE型号的电源管理芯片的编程代码？
¥15 设计简单目录管理系统，要满足以下内容
¥15 关于九十度混合耦合器信号分析问题
¥15 Cesm如何关闭不用的模块呢
¥15 vue2两层数据导出为excle

强化学习DDPG算法训练总是选择边界动作是什么原因造成的？

4条回答 默认 最新

悬赏问题

4条回答默认最新