sb3框架的eval回调是不是有问题

我设置了50步eval一次，但是每一次都调用了eval的回调函数，关键的一点是我训练时，逻辑很正常，eval时，就从没有调用过我自定义的Policy网络

CustomPolicy forward method is called.
Env step called. Action: 8, is_eval: train
当前步数: 1, 学习率: 0.0003,seed: 50, 奖励: [-10.], 标志: False
EvalCallback _on_step is called.
CustomPolicy forward method is called.
Env step called. Action: 5, is_eval: train
当前步数: 2, 学习率: 0.0003,seed: 50, 奖励: [1.8818476], 标志: False
EvalCallback _on_step is called.
CustomPolicy forward method is called.
Env step called. Action: 36, is_eval: train
当前步数: 3, 学习率: 0.0003,seed: 50, 奖励: [-2.3012323], 标志: False
EvalCallback _on_step is called.
CustomPolicy forward method is called.
Env step called. Action: 33, is_eval: train
当前步数: 4, 学习率: 0.0003,seed: 50, 奖励: [-0.16285548], 标志: False
EvalCallback _on_step is called.
CustomPolicy forward method is called.
Env step called. Action: 2, is_eval: train
当前步数: 5, 学习率: 0.0003,seed: 50, 奖励: [-0.5629139], 标志: False
EvalCallback _on_step is called.
CustomPolicy forward method is called.
Env step called. Action: 4, is_eval: train
当前步数: 6, 学习率: 0.0003,seed: 50, 奖励: [-0.5300567], 标志: False
EvalCallback _on_step is called.
CustomPolicy forward method is called.
Env step called. Action: 9, is_eval: train
当前步数: 7, 学习率: 0.0003,seed: 50, 奖励: [-1.0008886], 标志: False

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Booksort 2025-07-09 16:15
关注
经过我查看sb3的源码确定，是需要自己去继承并重写predict函数，保证和自己重写的forward是统一的即可

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

Stable Baselines3架构设计：模块化理念深度解析
2025-09-06 15:48

祝晋遥的博客传统强化学习框架常陷入"算法与组件紧耦合"的困境：修改策略网络需重写整个训练逻辑，扩展环境适配层需重构数据流转链路。Stable Baselines3（SB3）通过**分层抽象**与**组件解耦**，构建了可复用、易扩展的模块化...
StableBaselines3学习记录-2
2025-05-06 14:26

小栀啊的博客 ") # print(f"总训练步数: {self.num_timesteps}") # print(f"最终平均奖励: {self.logger.name_to_value['eval/mean_reward']:.2f}") # # # # 实用回调示例：动态学习率调节 # class LearningRateScheduler...
从监控到自动化：Stable Baselines3回调函数的7个实战技巧
2025-09-06 09:34

任玫椒Fleming的博客本文将通过7个实用技巧，带你掌握Stable Baselines3（简称SB3）回调函数（Callback）的高级应用，实现从训练监控到自动化调优的全流程掌控。读完本文，你将能够构建稳定、高效且智能的RL训练流水线，让模型训练像...
1、Tcl/Tk编程全面指南
2025-07-23 03:09

motor的博客本文全面介绍了Tcl/Tk编程的核心内容，涵盖从基础语法到高级功能的详细讲解，包括Tcl语言特性、Tk GUI开发、事件驱动编程、多线程、网络通信、与C语言的集成、国际化支持、安全模型以及打包和部署工具Tclkit和...
【AI应用架构师必备】深度强化学习落地实战：从算法到生产系统全流程解析
2025-09-03 16:53

AI架构全栈开发实战笔记的博客为聚焦工程化流程，选择经典控制问题“倒立摆”作为案例：控制小车左右移动，使杆保持竖直平衡。业务抽象：可类比为机器人关节控制、无人机姿态调整等连续动作场景。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月15日

sb3框架的eval回调是不是有问题

sb3框架的eval回调是不是有问题

我设置了50步eval一次，但是每一次都调用了eval的回调函数，关键的一点是我训练时，逻辑很正常，eval时，就从没有调用过我自定义的Policy网络

5条回答 默认 最新

问题事件

5条回答默认最新