迭代公式为:$v_{k+1}(s) = \sum_{a \in A}\pi(a|s)(R_s^a+\gamma \sum_{s' \in S}P_{ss'}^a v_k(s'))$
收起
报告相同问题?