panbaoran913 2021-07-30 09:40 采纳率: 71.4%
浏览 15
已结题

强化学习中,对某一种策略采用迭代法进行评估,其迭代公式是根据bellman逆推的,请问过程如何?

迭代公式为:
$v_{k+1}(s) = \sum_{a \in A}\pi(a|s)(R_s^a+\gamma \sum_{s' \in S}P_{ss'}^a v_k(s'))$

img

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 8月7日
    • 创建了问题 7月30日