tetradecane1 2022-04-12 15:44 采纳率: 66.7%
浏览 17
已结题

强化学习中,将Q-learning算法中greedy的评估策略改为和行为策略一样的e-greedy策略,此时和Sarsa算法等效吗?

以下是Sarsa算法与Q-learning算法的大致流程图,并提出了一种Q-learning变种算法:

  • Sarsa算法
状态策略行为状态策略行为状态策略行为……
S1e-greedyA1S2e-greedyA2S3e-greedyA3……
更新Q(S1, A1)以Q(S2, A2)更新Q(S2, A2)以Q(S3, A3)……
  • Q-learning算法
状态策略行为状态策略行为状态策略行为……
S1e-greedyA1S2e-greedyA2S3e-greedyA3……
greedya2greedya3……
更新Q(S1, A1)以Q(S2, a2)更新Q(S2, A2)以Q(S3, a3)……
  • Q-learning变种算法
状态策略行为状态策略行为状态策略行为……
S1e-greedyA1S2e-greedyA2S3e-greedyA3……
e-greedya2e-greedya3……
更新Q(S1, A1)以Q(S2, a2)更新Q(S2, A2)以Q(S3, a3)……

Q-learning变种算法使用两个相同的e-greedy策略,其中评估策略生成的行为a2, a3等并没有实际采用。这种算法依然是off-policy的吗?和Sarsa算法等效吗?算法冒险与否主要是来自于是on-policy和off-policy的区别还是e-greedy和greedy策略的区别?
【经过实验,我发现Q-learning变种算法也倾向于找到更安全的路径,与Sarsa算法类似,而不是像Q-learning算法一样冒险、激进。】

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 4月20日
    • 修改了问题 4月12日
    • 创建了问题 4月12日

    悬赏问题

    • ¥15 keil里为什么main.c定义的函数在it.c调用不了
    • ¥50 切换TabTip键盘的输入法
    • ¥15 可否在不同线程中调用封装数据库操作的类
    • ¥15 微带串馈天线阵列每个阵元宽度计算
    • ¥15 keil的map文件中Image component sizes各项意思
    • ¥20 求个正点原子stm32f407开发版的贪吃蛇游戏
    • ¥15 划分vlan后,链路不通了?
    • ¥20 求各位懂行的人,注册表能不能看到usb使用得具体信息,干了什么,传输了什么数据
    • ¥15 Vue3 大型图片数据拖动排序
    • ¥15 Centos / PETGEM