强化学习PPO算法咨询

使用强化学习PPO算法跑智能网联车轨迹规划，参数如下：

actor_lr = 1e-4 # 策略网络的学习率
critic_lr = 5e-4 # 价值网络的学习率
n_hiddens = 16 # 隐含层神经元个数
n_states = 12 # 状态数 12
n_actions = 1 # 动作空间 -0.2 ~ +0.2

奖励值做了归一化[-1, 1]，状态向量类似于：
[20, 13.89, 13.812175596761518, 26.048195602071445, 15.467263388223945, 17.1, 0, 0, 0, 0, 1, 0.1267255060602713]
[20, 13.89, 13.749945521699265, 26.20930636256557, 15.361053126640616, 17.0, 0, 0, 0, 0, 1, 0.06528129355370879]

使用xavier初始化网络权重，激活函数使用tanh，训练发现critic网络损失波动下降，actor网络损失先升后降，但是reward曲线（每一幕的平均reward）始终震荡不上升，想请教一下是什么原因。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

25条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
喝茶品人生 2024-04-03 10:31
关注
获得0.30元问题酬金

actor和critic的学习率修改下看看有没有变化

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于PPO算法的智能汽车端到端深度强化学习控制研究
2024-02-25 22:50

#### 深度学习与强化学习理论基础及PPO算法介绍在本文的研究中，首先深入探讨了深度学习与强化学习的基本原理及其应用背景。深度学习作为一种人工智能技术，能够处理大量复杂的数据并从中提取特征。而强化学习则是...
强化学习PPO算法实现火箭回收
2023-10-21 16:42

在"强化学习PPO算法实现火箭回收"这个项目中，火箭回收是一项复杂的过程，涉及到实时决策、精确的轨迹规划以及动力系统控制。以下是PPO算法在火箭回收中可能涉及的关键技术点： 1. **环境建模**：首先，需要建立一...
【深度强化学习】PPO算法
2023-12-16 21:33

WilliamChou123的博客 PPO是一种用于策略优化的强化学习算法，旨在提高训练的稳定性和效率。其核心思想是通过比较新旧策略，以渐进的方式更新策略，同时引入一个剪切项来控制更新的大小，从而防止过度的策略变化。使用 PPO Loss 函数进行...
ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT
2023-01-15 22:01

v_JULY_v的博客一方面，对于想了解ChatGPT背后原理和如何发展而来的，逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法，最后再到instructGPT、ChatGPT、SeqGAN 且本文之前，99%的文章都不会把PPO算法从头推到尾，本文会把PPO从零推到...
强化学习PPO算法详解
2024-01-12 10:51

edward_zcl的博客接着上面的讲，PG方法一个很大的缺点就是参数更新慢，因为我们每更新一次参数都需要进行重新的采样，这其实是中on-policy的策略，即我们想要训练的agent和与环境进行交互的agent是同一个agent；在上面的介绍方法中PG...
强化学习之图解PPO算法和TD3算法
2021-06-27 20:12

ReEchooo的博客 PPO算法1.1 网络结构1.2 产生experience的过程1.3 Actor网络的更新流程1.4 Critic网络的更新流程2. TD3算法2.1 网络结构2.2 产生experience的过程2.3 Actor网络的更新流程2.4 Critic网络的更新流程2.5 总结 0. 引言...
强化学习（4）：PPO算法知识点梳理
2024-06-12 11:09

软件工程小施同学的博客原文：你会PPO算法吗？那这些问题你知道答案吗？
强化学习算法：DQN与PPO的实现
2024-05-02 00:21

AI架构设计之禅的博客 1.1 强化学习的崛起近年来，强化学习 (Reinforcement Learning, RL) 作为机器学习领域的一个重要分支，受到了越来越多的关注。它赋予了智能体在与环境交互的过程中学习和适应的能力，在游戏、机器人控制、自然语言...
基于强化学习PPO(Proximal Policy Optimization)算法的无人机姿态控制系统
2022-10-03 20:58

fpga和matlab的博客从该仿真结果可知，在500次训练之后可以搜索到预设的目标位置，保证了在整个训练过程中，PPO算法始终保持着一个较高的稳定的reward值，从而完成PPO训练目标。通过PPO训练后的PID，其Roll和Pitch抗干扰能力较强，当...
基于百度飞桨PaddlePaddle和PARL复现PPO强化学习算法
2020-07-23 09:25

AItrust的博客文章目录一、PPO训练效果展示（Mujoco HalfCheetah-v2）二、策略优化算法发展回顾：三、PPO 算法论文阅读1. Introduction2. Background: Policy Optimization2.1 Policy Gradient Methods2.2 Trust Region Methods3....
a2c-ppo-ddpg:强化学习算法a2c，ppo和ddpg的实现
2021-03-20 14:11

在强化学习领域，A2C（Advantage Actor-Critic）、PPO（Proximal Policy Optimization）和DDPG（Deep Deterministic Policy Gradient）是三种广泛使用的算法，它们在解决连续动作空间和离散动作空间的问题上各有优势...
【RL】(task5)PPO算法和代码实现
2024-01-30 00:19

山顶夕景的博客其实就是构造sft数据集进行微调。 step2 你做我看：奖励模型训练，这次不人工写答案了，而是让GPT或其他大模型给出几个候选答案，人工对其质量排序，Reward model学习一个打分器；这个让机器学习人类偏好的过程就是...
强化学习之 PPO 算法
2022-11-09 01:22

发呆的比目鱼的博客 强化学习之PPO算法
【深度强化学习】MA-PPO算法
2023-12-16 21:34

WilliamChou123的博客 MA-PPO（Multi-Agent Proximal Policy Optimization）算法是基于 PPO 的一种多智能体强化学习算法，旨在处理多智能体环境中的协同问题。MA-PPO 在多智能体环境中的成功关键在于经验共享和中心化-分布式训练，这样...
强化学习-优化策略算法（DPO和PPO）
2024-09-02 16:04

TAICHIFEI的博客 • 基于强化学习中的策略梯度方法，PPO 改进了 Trust Region Policy Optimization (TRPO)，通过引入剪切损失函数，限制策略更新的幅度，确保优化过程中的稳定性。• DPO 基于用户偏好或人类反馈的直接优化，这种方法...
基于python与OpenAI_gym的强化学习算法设计与实现
2022-04-16 22:19

在本文中，我们将深入探讨如何使用Python编程语言和OpenAI Gym库来设计和实现强化学习算法。强化学习是机器学习的一个重要分支，它通过与环境的交互，使智能体学会采取最优策略以最大化奖励。Python作为一门易读、...
【ChatGPT 默认强化学习策略】PPO 近端策略优化算法
2023-12-28 13:05

Debroon的博客引入基线之后，智能体在更新其策略时，会考虑与基线的差异，而不仅仅是奖励的绝对值。这可能导致智能体沿着曲面上的梯度盲目地寻找更高奖励的区域，这样的路径可能会很曲折，因为它会对每一个小波动都做出反应（打 X...
PPO算法基本原理与工作流程
2024-06-29 00:44

AI天才研究院的博客 PPO算法基本原理与工作流程作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词：PPO算法,PPO流程图,强化学习,策略梯度方法,自然优势估计 1. 背景介绍 1.
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月3日

悬赏问题

¥15 单纯型python实现编译报错
¥15 c++2013读写oracle
¥15 c++ gmssl sm2验签demo
¥15 关于模的完全剩余系(关键词-数学方法)
¥15 有没有人懂这个博图程序怎么写，还要跟SFB连接，真的不会，求帮助
¥15 PVE8.2.7无法成功使用a5000的vGPU，什么原因
¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音

强化学习PPO算法咨询

25条回答 默认 最新

问题事件

悬赏问题

25条回答默认最新