maybeth 2021-12-02 22:19
浏览 33
已结题

q learning算法怎么评估收敛?

小白不懂就问,通过绘制一个最短路径长度与迭代次数的变化图可以大致看出收敛,但是每次收敛次数都不一样,算法改进前后如何对比收敛速度呀?

看到有相关的平均reward的说法,不知道该怎么计算。是每次迭代中探索时期的reward累积和÷探索步长,还是找到目的地后,通过最大q值找最优路径上的reward累积和÷路径步长呢

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 12月10日
    • 创建了问题 12月2日

    悬赏问题

    • ¥15 使用EMD去噪处理RML2016数据集时候的原理
    • ¥15 神经网络预测均方误差很小 但是图像上看着差别太大
    • ¥15 Oracle中如何从clob类型截取特定字符串后面的字符
    • ¥15 想通过pywinauto自动电机应用程序按钮,但是找不到应用程序按钮信息
    • ¥15 如何在炒股软件中,爬到我想看的日k线
    • ¥15 seatunnel 怎么配置Elasticsearch
    • ¥15 PSCAD安装问题 ERROR: Visual Studio 2013, 2015, 2017 or 2019 is not found in the system.
    • ¥15 (标签-MATLAB|关键词-多址)
    • ¥15 关于#MATLAB#的问题,如何解决?(相关搜索:信噪比,系统容量)
    • ¥500 52810做蓝牙接受端