

按道理,模型有关是指转移概率和即时奖励都是已知的。
然而这里,SARSA/Q-Learning 显然是可以计算出 r 和 s' 的,那为什么我们还说他是模型未知的,既然未知,我们怎么能算出 r 和 s' 呢?


按道理,模型有关是指转移概率和即时奖励都是已知的。
然而这里,SARSA/Q-Learning 显然是可以计算出 r 和 s' 的,那为什么我们还说他是模型未知的,既然未知,我们怎么能算出 r 和 s' 呢?
收起
微信扫一扫报告相同问题?