q learning算法怎么评估收敛？

小白不懂就问，通过绘制一个最短路径长度与迭代次数的变化图可以大致看出收敛，但是每次收敛次数都不一样，算法改进前后如何对比收敛速度呀？

看到有相关的平均reward的说法，不知道该怎么计算。是每次迭代中探索时期的reward累积和÷探索步长，还是找到目的地后，通过最大q值找最优路径上的reward累积和÷路径步长呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

最近在做荧光图像细胞的识别项目，请问传统算法有什么解决办法吗 opencv 机器学习算法
2022-02-21 15:10

回答 2 已采纳传统方法在这方面做的就是不好，不想用深度学习的话，试试图像无监督分割算法，有监督决策树算法，但是效果肯定没有深度学习的好。
lms算法的期望信号dn和输入信号xn一样 matlab
2022-09-13 18:22

回答 1 已采纳把期望作为输入可以直接对目标系统进行辩识，也就是权重，这样就可以作为反馈用，更容易收敛。
关于#lstm#的问题：lstm训练，padding 补0后,模型不收敛 lstm pytorch 时序数据库
2022-07-20 18:43

回答 2 已采纳直接划分60s滑动窗口不行嘛
强化学习算法-基于python的Q学习算法q-learning实现
2022-06-02 22:56

最后，我们可以通过绘制Q表的变化、学习曲线（如累计奖励随时间的变化）以及策略的收敛情况，来评估和理解Q学习算法的性能。Matplotlib库可以帮助我们轻松地完成这些可视化工作。总结来说，本项目旨在通过Python...
Q学习价值过高
2016-05-30 11:24

回答 2 已采纳 If I've understood well, in your Q-learning update rule, you are using the current reward and the
算法新手，从哪里开始？ [关闭] javascript mysql php sql
2014-11-11 20:56

回答 1 已采纳 Upvote for wanting someting to learn and actually asking. As @jbarker2160 wrote: Computer-progra
日志文件与数据库在哪里保存用户活动数据以进行分析？ database php
2017-01-24 09:30

回答 4 已采纳 Better to go with DB because if you want to analyze or sort login tries by IP, location ..etc. you
Qlearning算法
2024-10-04 02:19

AI天才研究院的博客 Q-learning算法作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 1. 背景介绍 1.1 问题的由来在计算机科学和人工智能领域，强化学习（Reinforcemen
求解惑蓝桥杯跳跃 python python 深度优先算法
2023-03-08 20:08

回答 3 已采纳这个代码实现了一个动态规划来求解跳跃问题，但是在代码最后还缺少一个 print 语句来输出结果。下面对代码进行一些解释和修改建议：首先需要注意的是，这个问题是一个动态规划问题，而不是贪心问题。因为在
使用GradientBoostingRegressor时，在输出ACC，MCC等结果时遇到的问题 python 机器学习算法
2023-01-16 18:43

回答 4 已采纳当使用 GradientBoostingRegressor 算法时，出现“Classification metrics can't handle a mix of binary and continu
关于梯度下降法的问题有问必答机器学习算法线性回归
2022-11-07 18:24

回答 2 已采纳你可以参考下这篇文章：用梯度下降算法解决线性回归问题
深度Qlearning算法的收敛性分析
2024-04-24 13:18

AI架构设计之禅的博客强化学习（Reinforcement Learning，RL）是机器学习的一个重要分支，它研究的是智能体如何在与环境的交互中通过学习策略来最大化累积奖励。深度学习（Deep Learning，DL）则是机器学习的另一个重要分支，它利用深度...
代码的运行有一点小问题 python 决策树算法
2023-04-21 11:00

回答 3 已采纳该回答引用chatgpt:该代码运行出现了ValueError: Input X contains NaN的错误，说明输入的X数据中存在NaN值，而DecisionTreeRegressor不支持包含
Qlearning car.rar_Q learning+matlab_Q算法_c语言qlearning_matlab q-le
2022-07-14 10:15

C语言版本的Q学习通常涉及更底层的数据结构和循环操作。 Matlab_q-learning和qlearning标签强调了算法的实现语言和主题，表明这个项目是关于如何在MATLAB环境中理解和应用Q学习的实例。总的来说，这个压缩包提供...
Q-Learning 、Sarsa与 DQN算法
2022-07-23 00:06

何处微尘的博客主要介绍了Q-Learning 算法与 DQN 算法的原理与异同点
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月2日

悬赏问题

¥15 平板录音机录音问题解决
¥15 请问维特智能的安卓APP在手机上存储传感器数据后，如何找到它的存储路径?
¥15 (SQL语句|查询结果翻了4倍)
¥15 Odoo17操作下面代码的模块时出现没有'读取'来访问
¥50 .net core 并发调用接口问题
¥15 网上各种方法试过了，pip还是无法使用
¥15 用verilog实现tanh函数和softplus函数
¥15 Hadoop集群部署启动Hadoop时碰到问题
¥15 求京东批量付款能替代天诚
¥15 slaris 系统断电后，重新开机后一直自动重启

q learning算法怎么评估收敛？

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新