李噜啦啦 2022-11-25 13:41 采纳率: 0%
浏览 14
已结题

option分层强化学习问题

我是在不理解这个option究竟是什么
我有一个强化学习的动作里面包含四部分,利用传统的强化学习,要学习到一个策略可能需要与环境交互四次(动作包含四部分),这样的话样本量虽然大,但是质量不高。
而利用基于option的分层强化学习,option是时序抽象的action,也就是说把action的四部分抽象成一个option,每个option对应一定的策略,用策略去指导做出动作,改变状态,重复过程,使得option的策略达到最优,利用option使得与环境交互次数少,但是样本的质量有所提高,利用option的经验可以加速以后任务的学习,样本利用率也提高了。
我理解的对吗

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 12月3日
    • 创建了问题 11月25日