小白不懂就问,通过绘制一个最短路径长度与迭代次数的变化图可以大致看出收敛,但是每次收敛次数都不一样,算法改进前后如何对比收敛速度呀?
看到有相关的平均reward的说法,不知道该怎么计算。是每次迭代中探索时期的reward累积和÷探索步长,还是找到目的地后,通过最大q值找最优路径上的reward累积和÷路径步长呢
小白不懂就问,通过绘制一个最短路径长度与迭代次数的变化图可以大致看出收敛,但是每次收敛次数都不一样,算法改进前后如何对比收敛速度呀?
看到有相关的平均reward的说法,不知道该怎么计算。是每次迭代中探索时期的reward累积和÷探索步长,还是找到目的地后,通过最大q值找最优路径上的reward累积和÷路径步长呢