uuu332 2024-04-03 10:24 采纳率: 0%
浏览 65
已结题

强化学习PPO算法咨询

使用强化学习PPO算法跑智能网联车轨迹规划,参数如下:

actor_lr = 1e-4 # 策略网络的学习率
critic_lr = 5e-4 # 价值网络的学习率
n_hiddens = 16 # 隐含层神经元个数
n_states = 12 # 状态数 12
n_actions = 1 # 动作空间 -0.2 ~ +0.2

奖励值做了归一化[-1, 1],状态向量类似于:
[20, 13.89, 13.812175596761518, 26.048195602071445, 15.467263388223945, 17.1, 0, 0, 0, 0, 1, 0.1267255060602713]
[20, 13.89, 13.749945521699265, 26.20930636256557, 15.361053126640616, 17.0, 0, 0, 0, 0, 1, 0.06528129355370879]

使用xavier初始化网络权重,激活函数使用tanh,训练发现critic网络损失波动下降,actor网络损失先升后降,但是reward曲线(每一幕的平均reward)始终震荡不上升,想请教一下是什么原因。

img

img

  • 写回答

25条回答 默认 最新

  • 喝茶品人生 2024-04-03 10:31
    关注
    获得0.30元问题酬金

    actor和critic的学习率修改下看看有没有变化

    评论

报告相同问题?

问题事件

  • 系统已结题 4月11日
  • 创建了问题 4月3日

悬赏问题

  • ¥15 单纯型python实现编译报错
  • ¥15 c++2013读写oracle
  • ¥15 c++ gmssl sm2验签demo
  • ¥15 关于模的完全剩余系(关键词-数学方法)
  • ¥15 有没有人懂这个博图程序怎么写,还要跟SFB连接,真的不会,求帮助
  • ¥15 PVE8.2.7无法成功使用a5000的vGPU,什么原因
  • ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
  • ¥15 安装quartus II18.1时弹出此error,怎么解决?
  • ¥15 keil官网下载psn序列号在哪
  • ¥15 想用adb命令做一个通话软件,播放录音