DDPG中经过model获得的action的值不合适的问题！

问题遇到的现象和发生背景

在DDPG中，根据https://blog.csdn.net/blanokvaffy/article/details/86232658
问题一. 首先出现了action经过model会取边界值的问题。
问题二：reward的值取负值的问题

问题相关代码，请勿粘贴截图

问题一：我的解答思路和尝试过的方法

思路一：我以为是tanh的原因，去掉所有的tanh后，发现action的值是在发生变化的，但是结果很大。
思路二：我以为是对状态没有标准化的原因，对（状态-均值）、标准差后的数据，action的取值在0.0001之间浮动。
思路三：我以为是多层神经网路造成的梯度消失问题，简化网络后，发现action的问题依旧存在。
思路四：我以为是初始权重的值的大小的问题，由normal_(0,1)改为normal(0,0.5),normal_(0,0.01)，action的问题依旧存在！
当下：
我标准化后状态数据，降低权重初始值，简化神经网络后，去掉tanh的值。我用一个热力图，表示action的值的大小变化。

问题一的结果及报错内容

可以看到action的值远远超过了【-3，3】的范围。我定的action的范围目标。并且随着model的训练，action的值是在逐渐增大的。

问题二的结果及报错内容

可以看到，reward的值，从训练开始到结束，一直都是负值。
训练的loss曲线倒是优化了

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

DDPG算法(深度确定性策略梯度)求解倒立摆问题
2024-10-21 15:17

剁椒乖乖的博客通过 DDPG 算法训练一个智能体，使其能够根据当前的摆的状态输出合适的力矩动作，以实现对倒立摆的稳定控制。
DDPG算法详解
2023-04-19 16:05

kill bert的博客在RL领域，DDPG主要从：PG -> DPG -> DDPG 发展而来。
OpenAI Baselines中的深度确定性策略梯度：DDPG算法实现与应用
2025-09-12 02:38

gitblog_00881的博客你是否在强化学习项目中遇到过这些挑战：机械臂控制时关节角度的...深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）算法正是为解决这类问题而生——它结合了深度Q网络（DQN）的价值函数估计能力与...
基于DDPG算法的股票量化交易
2024-10-26 22:13

k学长深度学习的博客 DDPG算法结合了策略梯度方法和Q学习，能够处理股票交易中复杂的连续决策问题。特别是在交易过程中，股票的买卖动作是连续的，通过DDPG的连续动作选择能力，能够实现对股票买卖决策的精细化控制。专为金融市场定制的...
强化学习算法 DDPG 解决 CartPole 问题，代码逐条详解
2020-06-21 15:59

AItrust的博客使用DDPG解决连续控制版本的CartPole问题，给小车一个力（连续量）使得车上的摆杆倒立起来。文章目录一、安装依赖二、导入依赖三、设置超参数四、搭建Model、Algorithm、Agent架构4.1 Model4.2 Algorithm4.3 Agent...
【PyTorch深度强化学习】DDPG算法的讲解及实战（超详细附源码）
2022-11-27 20:51

showswoller的博客【PyTorch深度强化学习】DDPG算法的讲解及实战（超详细附源码）
详解DDPG算法：解决对大量的超参数、随机重启、任务环境敏感问题，完成月球着陆器，双足机器人demo、以及超参数调优教学
2023-07-15 10:05

汀、人工智能的博客详解DDPG算法：解决对大量的超参数、随机重启、任务环境敏感问题，完成月球着陆器，双足机器人demo、以及超参数调优教学
强化学习13 —— Deep Deterministic Policy Gradient（DDPG）算法原理与 tensorflow 2.0 实现
2020-08-22 17:05

jsfantasy的博客上篇文章介绍了强化学习——Actor-Critic算法详解加实战介绍了Actor-Critic，本篇文章将介绍 DDPG 算法，DDPG 全称是 Deep Deterministic Policy Gradient（深度确定性策略梯度算法）其中 PG 就是我们前面介绍了 ...
18、深度确定性策略梯度（DDPG）算法的代码实现与应用
2025-08-11 05:56

m2n3o4p5的博客本博客介绍了如何使用深度确定性策略梯度（DDPG）算法解决连续动作控制任务，重点实现了在Gym的Mountain Car Continuous环境下的智能控制。通过Keras和keras-rl库，构建了Actor和Critic网络模型，并展示了代码结构、...
基于深度确定性策略梯度算法(DDPG)进行滑模控制(SMC)调参优化算法DDPG_SMC
2025-05-12 20:01

资深码侬的博客本文介绍了结合深度确定性策略梯度算法（DDPG）与滑模控制（SMC）的调参优化算法DDPG_SMC。DDPG是一种适用于连续动作空间的强化学习算法，而SMC则是一种鲁棒控制方法，广泛应用于非线性系统。通过将两者结合，可以...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月30日