强化学习中，将Q-learning算法中greedy的评估策略改为和行为策略一样的e-greedy策略，此时和Sarsa算法等效吗？

以下是Sarsa算法与Q-learning算法的大致流程图，并提出了一种Q-learning变种算法：

Sarsa算法

状态	策略	行为	状态	策略	行为	状态	策略	行为	……
S1	e-greedy	A1	S2	e-greedy	A2	S3	e-greedy	A3	……
					更新Q(S1, A1)以Q(S2, A2)			更新Q(S2, A2)以Q(S3, A3)	……

Q-learning算法

状态	策略	行为	状态	策略	行为	状态	策略	行为	……
S1	e-greedy	A1	S2	e-greedy	A2	S3	e-greedy	A3	……
				greedy	a2		greedy	a3	……
					更新Q(S1, A1)以Q(S2, a2)			更新Q(S2, A2)以Q(S3, a3)	……

Q-learning变种算法

状态	策略	行为	状态	策略	行为	状态	策略	行为	……
S1	e-greedy	A1	S2	e-greedy	A2	S3	e-greedy	A3	……
				e-greedy	a2		e-greedy	a3	……
					更新Q(S1, A1)以Q(S2, a2)			更新Q(S2, A2)以Q(S3, a3)	……

Q-learning变种算法使用两个相同的e-greedy策略，其中评估策略生成的行为a2, a3等并没有实际采用。这种算法依然是off-policy的吗？和Sarsa算法等效吗？算法冒险与否主要是来自于是on-policy和off-policy的区别还是e-greedy和greedy策略的区别？
【经过实验，我发现Q-learning变种算法也倾向于找到更安全的路径，与Sarsa算法类似，而不是像Q-learning算法一样冒险、激进。】

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

Q学习价值过高
2016-05-30 11:24

回答 2 已采纳 If I've understood well, in your Q-learning update rule, you are using the current reward and the
Greedy?
2017-12-03 16:53

回答 2 已采纳 http://blog.csdn.net/qq_20480611/article/details/49522693
如何插入txt， txt文件里面有matrix, 如何在python用minimum spanning tree 的算法来运行matrix，并得出结果 python 有问必答
2022-03-30 14:43

回答 8 已采纳已完成，需要在代码的文件夹下新建一个graph.txt，内容如下 # Python program for Kruskal's algorithm to find # Minimum Spanni
强化学习（一）--Sarsa与Q-learning算法
2021-03-15 19:52

BUAA小乔的博客强化学习（一）--Sarsa与Q-learning算法1. SARSA算法2. Q-learning算法3. 代码实现3.1主函数3.2训练及测试函数3.3 SarsaAgent类的实现3.3.1 sample函数3.3.2 predict函数3.3.3 learn函数3.4 Q-learning算法的改变 ...
Greedy Island
2017-09-20 16:19

回答 1 已采纳 http://blog.sina.com.cn/s/blog_4509300f010000ra.html
有关python中下载pyinstaller后使用时出现的问题 python
2021-08-25 20:41

回答 2 已采纳挂了个vpn重新下载了一遍解决了("▔㉨▔)汗
Yolov4实做中遇到的问题 opencv 目标检测
2021-07-14 12:55

回答 2 已采纳直接把这些报缺失的文件放在darknet. exe所在的文件夹下即可
【强化学习】Q-Learning算法求解悬崖行走问题 + Python代码实战
2022-10-20 16:21

WSKH0929的博客目标策略就是我们需要去学习的策略，相当于后方指挥的军师，它不需要直接与环境进行交互行为策略是探索环境的策略，负责与环境交互，然后将采集的轨迹数据送给目标策略进行学习，而且为送给目标策略的数据中不需要at...
简单的机器学习更改，指定数据集预测人工智能机器学习深度学习
2019-11-07 07:01

回答 1 已采纳首先，不建议这么做，如果把train和test都用来训练，没测试集来看效果。如果真要这么做，可以在训练前先把两个文件合并再投入训练
强化学习入门4—Q-learning和Sarsa
2021-08-21 12:09

小菜羊~的博客本文是强化学习入门系列的第4篇，主要介绍强化学习当中非常常见的两个时序差分算法：Q-learning和Sarsa。
强化学习中，Q-Learning与Sarsa的差别有多大？
2021-08-18 11:12

行者AI的博客我相信，从某种意义上讲，强化学习是人工智能的未来。 ——强化学习之父，Richard ...Q-Learning是强化学习算法中Value-based中的一种算法，Q即为Q(s,a)就是在某一时刻的s状态下(s∈S)，采取动作a (a∈A)动作能够获
强化学习中Sarsa与Q-learning的区别
2021-10-08 23:43

yf_programmer的博客最近在学习强化学习，Sarsa和Q-learning作为强化学习中较为经典的的方法，两者之间有一定的相似之处，但又有较大的区别，能够很好的区分两种方法对区分on-policy和off-policy，以及之后对强化学习的进一步学习都很有...
强化学习(五)：Sarsa算法与Q-Learning算法
2018-01-21 12:11

Webbley的博客上一节主要讲了Monte-Carlo learning，TD learning，TD(λ)TD(\lambda)。这三个方法都是为了在给定策略下来估计价值函数V(s)。只不过Monte-Carlo learning需要得到一个完整的episode才能进行一次v值更新，而TD ...
从SARSA算法到Q-learning with ϵ-greedy Exploration算法
2019-10-26 22:21

从流域到海域的博客 SARSA代表state，action，reward，next state，action taken in next state，算法在每次采样到该五元组时更新，所以得名SARSA。 1: Set1:\ Set1: Set Initial ϵ\epsilonϵ-greedy policy π,t=0\pi,t=0...
MATLAB强化学习入门——二、网格迷宫、Q-learning算法、Sarsa算法
2020-01-19 19:27

忘了面孔的Batou的博客本文为《MatLab强化学习入门》系列的第二篇。在解决了单步决策问题以后，我们可以...本文将主要介绍Q-Learning的一系列基本算法，包括Q-Learning、Sarsa、Sarsa-λ算法；分析网格迷宫的编程实现，并对结果进行讨论。
强化学习之Q-learning与Sarsa算法解决悬崖寻路问题
2020-12-05 11:13

Ton10的博客之前有写过利用Q-learning算法去解决-> 一维二维探宝游戏：https://blog.csdn.net/MR_kdcon/article/details/109612413 有风格子寻路游戏：https://blog.csdn.net/MR_kdcon/article/details/110600819 理论与...
强化学习中的Q-learning算法和Sarsa算法的区别
2018-06-27 17:25

iTensor的博客 Q-learning 算法描述： Sarsa 算法描述：假设我们的 Q(s, a) 是一个 Q table ，如下图所示，该表格表示共有三个 state (状态)： s1s1s_{1} 、s2s2s_{2}、s3s3s_{3} ,每个状态都有三个可选 action (动作) ...
利用MATLAB的强化学习工具箱实现Q-Learning和SARSA算法
2020-09-08 15:43

领海王WHL的博客此示例显示了如何通过训练Q-learning和SARSA代理人来使用强化学习来解决网格世界环境。有关这些代理的更多信息，请分别参阅Q-Learning代理和SARSA代理。此网格世界环境具有以下配置和规则：一个由边界界定的5 x ...
【强化学习】Q-Learning算法求解迷宫寻路问题 + Java代码实现
2021-11-26 20:29

WSKH0929的博客相信大多数小伙伴应该和我一样，之前在学习强化学习的时候，一直用的是Python，但奈何只会用java写后端，对Python的一些后端框架还不太熟悉，（以后要集成到网站上就惨了），于是就想用Java实现一下强化学习中的Q-...
【学习强化学习】三、Q learning和Sarsa算法
2022-02-24 15:13

CHH3213的博客 Q- table2. Model-free Prediction2.1 Monte-Carlo Policy Evaluation2.1.1 MC算法步骤2.1.2 incremental MC updates2.1.3 Difference between DP and MC for policy evaluation2.1.4 Advantages of MC over DP2.2 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月12日

悬赏问题

¥15 keil里为什么main.c定义的函数在it.c调用不了
¥50 切换TabTip键盘的输入法
¥15 可否在不同线程中调用封装数据库操作的类
¥15 微带串馈天线阵列每个阵元宽度计算
¥15 keil的map文件中Image component sizes各项意思
¥20 求个正点原子stm32f407开发版的贪吃蛇游戏
¥15 划分vlan后，链路不通了？
¥20 求各位懂行的人，注册表能不能看到usb使用得具体信息，干了什么，传输了什么数据
¥15 Vue3 大型图片数据拖动排序
¥15 Centos / PETGEM

强化学习中，将Q-learning算法中greedy的评估策略改为和行为策略一样的e-greedy策略，此时和Sarsa算法等效吗？

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新