为什么说Expected Sarsa是一种off-policy的方法(见《Reinforcement Learning: An Introduction》6.9节)?
在《Reinforcement Learning: An Introduction》6.6节中的Cliff Walking例子中,Expected Sarsa更新Value function是通过计算下一状态在epsilon-greedy策略下的Expected Reward,决策采用的策略也是epsilon-greedy策略,在我理解上这应该是一种on-policy method,但《Reinforcement Learning: An Introduction》6.9节中确陈述说Expected Sarsa是一种off-policy method,因此想问一下对这方面有了解的前辈有什么更好的解释吗?
参考《Reinforcement Learning: An Introduction》 by Richard S. Sutton and Andrew G. Barto.