普通网友 2025-12-26 17:48 采纳率: 0%
浏览 4

offline policy和online policy的区别

offline policy和online policy的区别 offline policy和online policy的区别

  • 写回答

1条回答 默认 最新

  • 关注

    强化学习里offline和online policy的核心区别,就看训练用的数据是不是当前策略自己生成的

    • Offline policy(离线策略):练手的是“别人的旧数据”,不用当前策略和环境互动。比如Q-learning、SAC,直接扒经验池里的历史数据就能训,数据利用率贼高,样本贵的场景特香,但容易踩“分布偏移”的坑——训的策略和数据来源的策略对不上。
    • Online policy(在线策略):必须用“自己当下生成的新数据”,每一步动作都得是当前策略输出的。比如SARSA,旧数据直接作废,训练时得一直和环境打交道。好处是数据和策略完全匹配,没分布偏移的问题;坏处就是数据利用率低,训练成本高。
    评论

报告相同问题?

问题事件

  • 创建了问题 12月26日