关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
qq_50787320
2024-06-23 20:35
采纳率: 0%
浏览 354
首页
编程语言
强化学习奖励突然下降
python
我用的是MA2C算法,在强化学习运行2000步之后,奖励突然下降很多,后面就一直在一个较低的点附近了,很困惑,不知道要怎么改,求帮助
收起
写回答
好问题
0
提建议
关注问题
微信扫一扫
点击复制链接
分享
邀请回答
编辑
收藏
删除
结题
收藏
举报
2
条回答
默认
最新
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
奶昔owo
2025-05-10 00:50
关注
你好,想问问解决了吗
本回答被题主选为最佳回答
, 对您是否有帮助呢?
本回答被专家选为最佳回答
, 对您是否有帮助呢?
本回答被题主和专家选为最佳回答
, 对您是否有帮助呢?
解决
无用
评论
打赏
微信扫一扫
点击复制链接
分享
举报
评论
按下Enter换行,Ctrl+Enter发表内容
查看更多回答(1条)
向“C知道”追问
报告相同问题?
提交
关注问题
基于多主体
强化学习
的分布式住宅能源管理系统:可扩展性、灵活性与智能协同控制之道,深度
强化学习
电气工程复现文章,适合小白学习 关键词:能源管理系统 多主体
强化学习
需求侧响应 智能电网
编程语言
:pyt
2025-01-21 05:56
编程语言
:python平台 主题:可扩展的多代理
强化学习
用于分布式控制住宅能源灵活性 内容简介: 摘要—针对分布式住宅能源,提出了一种新的可扩展的基于多智能体
强化学习
的协调方法。 协作主体学习在一个部分可观测的...
强化学习
Reinforcement Learning中梯度
下降
法的应用与优化
2024-06-27 00:33
光子AI的博客
1. 背景介绍 1.1 问题的由来
强化学习
是一种通过与环境交互来学习最优行为策略的机器学习方法。...然而,如何正确、高效地应用梯度
下降
法,以及如何针对
强化学习
中的特殊问题进行优化,一直是研究的重要课题。
强化学习
导论第二版源代码(python).zip
2021-06-06 13:06
这里的"
强化学习
导论第二版源代码(python).zip"压缩包提供的是英文第二版《
强化学习
导论》一书的源代码实现,用Python
编程语言
编写,为读者提供了直观理解并实践
强化学习
算法的机会。 首先,
强化学习
的基本概念包括...
【DeepSeek论文精读】6. DeepSeek R1:通过
强化学习
激发大语言模型的推理能力
2025-02-03 14:27
youcans的博客
本文由 youcans@xidian 对论文 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 进行摘编和翻译。该论文版权属于原文期刊和作者,本译文只供研究学习使用。
【LLM】字节的DAPO
强化学习
算法
2025-10-17 20:43
山顶夕景的博客
难点:该问题的研究难点在于现有的
强化学习
训练技术和关键细节被隐藏,导致社区在复现这些结果时遇到挑战,如熵崩溃、
奖励
噪声和训练不稳定性等问题。 相关工作:现有工作主要集中在通过测试时扩展...
大语言模型(LLM)入门学习路线图
2024-02-28 17:36
Kk-Quiana的博客
Github项目上有一个,它涵盖了大语言模型基础学习,LLM前沿算法和架构学习,以及如何将大语言模型进行工程化,是一个很好的帮助初学者入门大语言模型的路线图。
[EAI-009] Eureka,使用GPT-4设计
强化学习
奖励
函数,实现灵巧转笔操作
2024-02-12 08:50
EAI2的博客
EUREKA 利用最先进的 LLM 对
奖励
代码进行进化优化。由此产生的
奖励
可用于通过
强化学习
获得复杂的技能。在没有任何特定任务提示或预定义
奖励
模板的情况下,EUREKA 生成的
奖励
函数优于人类设计的专家
奖励
。
深度
强化学习
电气工程复现文章 关键词:能源管理系统 多主体
强化学习
需求侧响应 智能电网
编程语言
:python平台 主题:可扩展的多代理
强化学习
用于分布式控制住宅能源灵活性 内容简介: 摘要-针对分
2025-01-07 10:24
编程语言
:python平台 主题:可扩展的多代理
强化学习
用于分布式控制住宅能源灵活性 内容简介: 摘要—针对分布式住宅能源,提出了一种新的可扩展的基于多智能体
强化学习
的协调方法。 协作主体学习在一个部分可观测的...
前沿探索:基于
强化学习
的目标检测与跟踪技术及论文解析
2025-08-16 09:09
xcLeigh的博客
前沿探索:基于
强化学习
的目标检测与跟踪技术及论文解析 ,人工智能,计算机视觉,大模型,AI,本文聚焦基于
强化学习
的目标检测与跟踪技术,先介绍相关技术基础,包括目标检测、跟踪及
强化学习
的算法等。接着阐述...
Python-中文整理的
强化学习
资料ReinforcementLearning
2019-08-11 03:51
强化学习
(Reinforcement Learning,RL)是一种人工智能领域的重要学习方法,它通过智能体与环境的交互来学习最优策略,以最大化累计
奖励
。在Python中,由于其简洁易读的语法和丰富的库支持,成为了实现RL算法的首选...
没有解决我的问题,
去提问
向专家提问
向AI提问
付费问答(悬赏)服务下线公告
◇ 用户帮助中心
◇ 新手如何提问
◇ 奖惩公告
问题事件
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
创建了问题
6月23日