maybeth 2021-12-02 22:19
浏览 37
已结题

q learning算法怎么评估收敛?

小白不懂就问,通过绘制一个最短路径长度与迭代次数的变化图可以大致看出收敛,但是每次收敛次数都不一样,算法改进前后如何对比收敛速度呀?

看到有相关的平均reward的说法,不知道该怎么计算。是每次迭代中探索时期的reward累积和÷探索步长,还是找到目的地后,通过最大q值找最优路径上的reward累积和÷路径步长呢

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 12月10日
    • 创建了问题 12月2日

    悬赏问题

    • ¥15 平板录音机录音问题解决
    • ¥15 请问维特智能的安卓APP在手机上存储传感器数据后,如何找到它的存储路径?
    • ¥15 (SQL语句|查询结果翻了4倍)
    • ¥15 Odoo17操作下面代码的模块时出现没有'读取'来访问
    • ¥50 .net core 并发调用接口问题
    • ¥15 网上各种方法试过了,pip还是无法使用
    • ¥15 用verilog实现tanh函数和softplus函数
    • ¥15 Hadoop集群部署启动Hadoop时碰到问题
    • ¥15 求京东批量付款能替代天诚
    • ¥15 slaris 系统断电后,重新开机后一直自动重启