强化学习DDPG算法，奖励函数越来越小是为什么啊。我希望奖励值越来越大，直到趋于稳定，可结果相反

强化学习DDPG算法，奖励函数越来越小是为什么啊？我希望奖励值越来越大，直到趋于稳定，可结果相反

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

12条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
技术宅program 2024-01-05 16:45
关注
(1) 为什么训练DQN会出现reward稳定下降收敛的现象？哪些原因可能导致这种情况？ - 知乎. https://www.zhihu.com/question/418080334.
(2) 想问一下，强化学习的奖励突然下降，可能会是什么原因导致的？ - 知乎. https://www.zhihu.com/question/451373975.
(3) 深度确定性策略梯度算法，越训练效果越差？ - 知乎. https://www.zhihu.com/question/61035679.
(4) 为什么使用DDPG进行路径规划，得到的奖励值一直是忽高忽低不收敛？ - 知乎. https://www.zhihu.com/question/383492718.

解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于深度确定性策略梯度算法（DDPG）强化学习的滑模控制（SMC）自适应调参优化算法Simulink仿真
2026-03-30 06:25

威武编程狮的博客深度确定性策略梯度算法（DDPG）作为强化学习领域中经典的基于策略的算法，其核心优势在于能够适配连续动作空间的决策问题，无需依赖系统精确模型，具备自主探索与学习优化的能力，可通过与环境的实时交互不断调整...
44、离线强化学习算法及相关框架与平台介绍
2025-09-30 05:01

u6v7w8x的博客本文系统介绍了离线强化学习的主要算法类别，包括策略约束、基于模型、值函数正则化、基于不确定性、样本内学习和目标条件模仿学习方法，分析了各类算法的原理、优缺点及适用场景。同时，综述了主流强化学习框架（如...
17、深度确定性策略梯度（DDPG）算法详解与代码实现
2025-08-02 01:27

fern8的博客 DDPG是一种结合确定性策略梯度（DPG）和深度Q网络（DQN）的无模型、离策略强化学习算法，专为连续动作控制任务设计。博客还介绍了DDPG的四大核心改进：经验回放、软更新目标网络、批量归一化和合适的噪声函数选择，...
强化学习背后的数学魔法：结合马里奥跳格子的案例
2025-12-10 09:59

数据与算法架构提升之路的博客本文深入浅出地讲解了强化学习(RL)的数学原理及其算法实现。作者通过训练宠物狗的类比，生动解释了RL的核心概念，包括马尔可夫决策过程、回报函数、策略梯度等关键数学原理。文章详细拆解了4个引理和4个定理，展示了...
（DDPG）深度学习神经网络算法DDPG优化解决二维栅格地图路径规划研究（Matlab代码实现）
2026-01-03 12:51

老杰爱编程的博客传统路径规划算法在处理复杂动态环境时存在局限性，而深度强化学习为解决该问题提供了新思路。本文提出基于深度确定性策略梯度（DDPG）算法的路径规划方法，通过构建Actor-Critic神经网络架构，结合经验回放和目标...
强化学习基础与算法解析
2025-09-11 18:35

寿司师的博客本文围绕强化学习（RL）的基础知识和核心算法展开，内容包括RL的目标、智能体-环境接口、任务分类、价值函数定义、基于模型与无模型算法的区别、Q学习与SARSA等常见算法原理，以及深度强化学习中的DQN、DDPG、PPO等...
强化学习在自适应控制系统中的应用
2024-10-23 02:48

光子AI的博客《强化学习在自适应控制系统中的应用》关键词：强化学习、自适应控制系统、Q-学习、策略迭代、深度强化学习、无人驾驶、智能电网摘要：本文深入探讨了强化学习在自适应控制系统中的应用，首先介绍了强化学习的...
基于飞桨复现强化学习进阶算法SAC，让月球着陆器顺利着陆
2020-10-13 18:20

百度大脑的博客点击左上方蓝字关注我们【飞桨开发者说】秦浩然，沈阳人，毕业于东北大学。强化学习技术爱好者。传统软件开发领域的前浪，AI领域的后浪。说起强化学习的入门，不知道大家是否也是从Sarsa、Q-...
强化学习项目完整流程
2026-03-05 18:29

龙腾亚太-人工智能技术咨询与培训的博客 强化学习是一种通过智能体与环境交互、依靠奖励反馈优化行为策略的机器学习方法，其项目流程兼具科学性与实践性，需遵循“问题定义-环境搭建-模型设计-训练优化-评估部署”的核心逻辑，各环节环环相扣，确保项目落地...
深度强化学习在组合优化中的应用研究
2025-08-09 00:44

体制教科书的博客在组合优化问题（Combinatorial Optimization Problems, COPs）中，强化学习可以用来寻找在大规模搜索空间内的最优解。组合优化问题普遍存在于运筹学、机器调度、网络设计等多个领域，其特征是决策变量相互依赖，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 1月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月5日

强化学习DDPG算法，奖励函数越来越小是为什么啊。我希望奖励值越来越大，直到趋于稳定，可结果相反

12条回答 默认 最新

问题事件

12条回答默认最新