offline policy和online policy的区别 offline policy和online policy的区别
1条回答 默认 最新
独角鲸网络安全实验室 2026-01-01 08:51关注强化学习里offline和online policy的核心区别,就看训练用的数据是不是当前策略自己生成的:
- Offline policy(离线策略):练手的是“别人的旧数据”,不用当前策略和环境互动。比如Q-learning、SAC,直接扒经验池里的历史数据就能训,数据利用率贼高,样本贵的场景特香,但容易踩“分布偏移”的坑——训的策略和数据来源的策略对不上。
- Online policy(在线策略):必须用“自己当下生成的新数据”,每一步动作都得是当前策略输出的。比如SARSA,旧数据直接作废,训练时得一直和环境打交道。好处是数据和策略完全匹配,没分布偏移的问题;坏处就是数据利用率低,训练成本高。
解决 无用评论 打赏 举报