强化学习奖励突然下降

我用的是MA2C算法，在强化学习运行2000步之后，奖励突然下降很多，后面就一直在一个较低的点附近了，很困惑，不知道要怎么改，求帮助

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
奶昔owo 2025-05-10 00:50
关注
你好，想问问解决了吗

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于多主体强化学习的分布式住宅能源管理系统：可扩展性、灵活性与智能协同控制之道,深度强化学习电气工程复现文章，适合小白学习关键词：能源管理系统多主体强化学习 需求侧响应智能电网 编程语言：pyt
2025-01-21 05:56

编程语言：python平台主题：可扩展的多代理强化学习用于分布式控制住宅能源灵活性内容简介：摘要—针对分布式住宅能源，提出了一种新的可扩展的基于多智能体强化学习的协调方法。协作主体学习在一个部分可观测的...
强化学习Reinforcement Learning中梯度下降法的应用与优化
2024-06-27 00:33

光子AI的博客 1. 背景介绍 1.1 问题的由来 强化学习是一种通过与环境交互来学习最优行为策略的机器学习方法。...然而，如何正确、高效地应用梯度下降法，以及如何针对强化学习中的特殊问题进行优化，一直是研究的重要课题。
强化学习导论第二版源代码(python).zip
2021-06-06 13:06

这里的"强化学习导论第二版源代码(python).zip"压缩包提供的是英文第二版《强化学习导论》一书的源代码实现，用Python编程语言编写，为读者提供了直观理解并实践强化学习算法的机会。首先，强化学习的基本概念包括...
【DeepSeek论文精读】6. DeepSeek R1：通过强化学习激发大语言模型的推理能力
2025-02-03 14:27

youcans的博客本文由 youcans@xidian 对论文 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 进行摘编和翻译。该论文版权属于原文期刊和作者，本译文只供研究学习使用。
【LLM】字节的DAPO强化学习算法
2025-10-17 20:43

山顶夕景的博客难点：该问题的研究难点在于现有的强化学习训练技术和关键细节被隐藏，导致社区在复现这些结果时遇到挑战，如熵崩溃、奖励噪声和训练不稳定性等问题。相关工作：现有工作主要集中在通过测试时扩展...
大语言模型(LLM)入门学习路线图
2024-02-28 17:36

Kk-Quiana的博客 Github项目上有一个，它涵盖了大语言模型基础学习，LLM前沿算法和架构学习，以及如何将大语言模型进行工程化，是一个很好的帮助初学者入门大语言模型的路线图。
[EAI-009] Eureka，使用GPT-4设计强化学习奖励函数，实现灵巧转笔操作
2024-02-12 08:50

EAI2的博客 EUREKA 利用最先进的 LLM 对奖励代码进行进化优化。由此产生的奖励可用于通过强化学习获得复杂的技能。在没有任何特定任务提示或预定义奖励模板的情况下，EUREKA 生成的奖励函数优于人类设计的专家奖励。
深度强化学习电气工程复现文章关键词：能源管理系统多主体强化学习 需求侧响应智能电网 编程语言：python平台主题：可扩展的多代理强化学习用于分布式控制住宅能源灵活性内容简介：摘要-针对分
2025-01-07 10:24

编程语言：python平台主题：可扩展的多代理强化学习用于分布式控制住宅能源灵活性内容简介：摘要—针对分布式住宅能源，提出了一种新的可扩展的基于多智能体强化学习的协调方法。协作主体学习在一个部分可观测的...
前沿探索：基于强化学习的目标检测与跟踪技术及论文解析
2025-08-16 09:09

xcLeigh的博客前沿探索：基于强化学习的目标检测与跟踪技术及论文解析，人工智能，计算机视觉，大模型，AI，本文聚焦基于强化学习的目标检测与跟踪技术，先介绍相关技术基础，包括目标检测、跟踪及强化学习的算法等。接着阐述...
Python-中文整理的强化学习资料ReinforcementLearning
2019-08-11 03:51

强化学习（Reinforcement Learning，RL）是一种人工智能领域的重要学习方法，它通过智能体与环境的交互来学习最优策略，以最大化累计奖励。在Python中，由于其简洁易读的语法和丰富的库支持，成为了实现RL算法的首选...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月23日

强化学习奖励突然下降

2条回答 默认 最新

问题事件

2条回答默认最新