ray.tune无法保存checkpoint文件


import ray  
from ray import tune  
from ray.rllib.agents.dqn import DQNTrainer  
from ray.tune.schedulers import ASHAScheduler  
import gym  

  
# 初始化Ray  
ray.init(num_cpus=8)       

def train_dqn(config):
    print("on train")  
    trainer = DQNTrainer(config=config, env="CartPole-v1") 
    result = trainer.train()  
    return result
  
# 设置训练配置  
config = {  
    "log_level": "DEBUG",  
    "num_workers": 4,  
    "framework": "torch",  
    "lr": 2e-3,  
    "replay_buffer_config": {  
        "capacity": 10000,  
        "learning_starts": 500  
    },  
    "train_batch_size": 64,  
    "target_network_update_freq": 10,  
    "gamma": 0.99,  
}
exp_config = {
    "run_or_experiment": train_dqn,
    "checkpoint_freq": 5,
    "checkpoint_at_end": True,
    "local_dir": "C:/Users/jinsong.shao/Desktop/model/checkpoints",
    "stop": {"training_iteration": 1000},
    "config": config,
    "scheduler":ASHAScheduler(metric="episode_reward_mean", mode="max"),
    "resources_per_trial":{"cpu": 4, "gpu": 0},
    }
# 运行Tune实验进行训练  
tune.run(**exp_config)

我是ray框架的初学者，尝试构建一个简单的训练，代码如上，遇到的问题是并没有如我期望的5次迭代保存一个checkpoint文件以及在达到最大迭代次数后也没有停止训练
ps.请不要使用AI作答，我已经和gpt纠结了很久都没有答案，期待各位的解惑，十分感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-07-02 17:53
关注
引自免费微信小程序：皆我百晓生

从您给出的代码和描述中，我可以看出您在尝试使用 Ray 进行分布式训练并尝试使用其内置的 tune 模块来管理训练过程。关于您的问题，无法保存 checkpoint 文件以及训练未按照预期停止的问题，我可以提供一些可能的解决方案和建议。

首先，关于无法保存 checkpoint 文件的问题，请确保您的本地目录路径（"C:/Users/jinsong.shao/Desktop/model/checkpoints"）存在且您有相应的写入权限。同时，确认该路径是否被正确地设置为 local_dir 参数的值。另外，确保在您的 Ray 版本中支持保存 checkpoint 功能。在 Ray 的某些版本中可能存在关于 checkpoint 功能的问题或缺陷，您可以尝试更新 Ray 到最新版本并再次尝试。

其次，关于训练未按照预期停止的问题，您可以确认训练迭代次数是否正确设置了 stop 参数中的 "training_iteration": 1000 这一部分。此外，确认您的代码是否正确运行并且没有被其他异常中断。如果在训练过程中发生异常，训练可能会提前终止，但可能由于某种原因并未正常结束并保存 checkpoint 文件。确保训练过程中的所有操作都符合预期执行完毕。

您可以尝试以下几个步骤来调试和解决这些问题：

确认路径问题：确保 "C:/Users/jinsong.shao/Desktop/model/checkpoints" 这个目录路径是正确的，并且您有足够的权限在该路径下创建文件。尝试手动创建一个测试文件来验证权限和路径是否正确。

更新 Ray 版本：检查您当前的 Ray 版本，并尝试更新到最新版本。可以使用如下命令来更新 Ray：pip install --upgrade ray。更新后重新运行代码尝试保存 checkpoint 文件。

检查代码执行流程：确保训练过程中没有任何异常抛出，并且代码正常执行完毕。可以使用断点调试或者打印日志来追踪代码执行流程。

如果以上步骤仍然无法解决问题，您可以尝试查看 Ray 的日志输出信息，寻找可能的错误信息或警告信息，以便进一步定位问题所在。此外，也可以考虑查阅 Ray 的官方文档或社区论坛，看看是否有其他用户遇到类似的问题和解决方案。希望这些建议能够帮助您解决问题！如果您还有其他问题或需要进一步的帮助，请随时提问。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

yolov3训练：AssertionError: Model accepts 2 classes labeled from 0-1, however you labelled a class 18. python 深度学习目标检测
2022-02-13 21:36

回答 1 已采纳提问注重方法，你这一大段代码别人没时间给你看！错误提示已经很明显了，模型的cls分类是2，但是数据给的cls是30.修改一下模型的配置即可。
运行tensorflow，通道无法调用 pycharm tensorflow 深度学习
2022-09-16 20:34

回答 1 已采纳这个应该是在CPU上面运行的。
PHP PDO_ODBC配置：错误：C编译器无法创建可执行文件 c++ php
2013-09-08 12:46

回答 1 已采纳 The answer to this question is provided in this link configure: error: C compiler cannot create e
ray.tune文档总结
2021-09-01 15:55

AI大司马的博客例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？二、使用步骤...
为什么运行不出来，请大佬帮忙指出问题并改正人工智能开发语言神经网络自动驾驶自然语言处理
2019-10-24 21:12

回答 1 已采纳 if __name__ == "__main__": pass 这里，你没有调用main()，所以程序不会运行 while True: if m.t
通过Golang SDK将大文件发送到Amazon S3时如何使用较少的内存？
2016-05-26 19:57

回答 1 已采纳 There's no reason to read the entire file into memory. Just provide the Body field with the file i
No such file or directory: 'saved_model_weight/resnet34_pretrain_ori_low_torch_version.pth' python pytorch 深度学习
2022-07-13 22:40

回答 2 已采纳 FileNotFoundError: [Errno 2] No such file or directory: 'saved_model_weight/resnet34_pretrain_ori_lo
RecBole：AttributeError: module ‘ray.tune’ has no attribute ‘report’
2024-10-09 20:57

Fulai Cui的博客在执行 RecBole 的 run_hyper.py 时，遇到AttributeError: module ‘ray.tune’ has no attribute ‘report’，记录解决方法。
使用PHP从文本文件中打印给定数量的行 php
2012-10-31 20:32

回答 1 已采纳 Change the foreach for something like this: for($i = 0; $i < $showSongs; $i++) { print($tu
如何添加PPS SPS数据，在FFMPEG取USB相机RGBA数据后，再实现H.264压缩后RTMP推流 android c++
2022-04-15 16:58

回答 1 已采纳 1.编码后推流，可以先把编码后的数据保存成文件，看看能不能正常播放2.ffmpeg推流，可以手动把sps和pps加上试试(一般情况下I帧自带sps和pps)
将Web应用程序部署为独立可执行文件 php
2010-09-08 20:35

回答 4 已采纳 If IE is not one of the trouble browsers, you could create a small .NET app that embeds a web bro
分布式执行引擎ray入门--（4）Ray Tune
2024-03-11 10:00

薇酱的博客使用ray调参一共只需要3步：① 定义目标函数② 定义搜索空间③ 启动一个Tune运行并打印出最佳结果。
python使用多gpu问题 python pytorch 深度学习
2022-07-20 11:57

回答 3 已采纳 DDP神坑，基本无解换launch看看？ python -m torch.distributed.launch或者看下这个 distributed training no
【ray】【调优执行】
2024-03-11 20:42

资源存储库的博客如果这是一个Sequence（例如Tuple），它的长度必须为2，并且元素分别指示stdout和stderr写入的文件。Tune期望`param_space`不被修改，并且在恢复期间将使用的唯一部分是更新的对象引用。请注意，所有试验完成的实验...
【MLOps】使用Ray缩放AI
2024-01-05 20:07

架构师研究会的博客 Ray是一个开源的统一计算框架，可以轻松扩展人工智能和Python的工作负载，从强化学习到深度学习，再到模型调整和服务。下面是Ray的最新架构。它主要有三个组件：Ray Core、Ray AI Runtime和Storage and Tracking。...
使用ray对pytorch模型进行超参数调节
2022-08-07 15:48

feng3702592的博客 def main(num_samples=10,max_num_epochs=10,gpus_per_trial=1): data_dir=os.path.abspath('./data...Ray 1.13.0rr ray在调参时如果报错Trials did not complete，那就是前面模型的定定义和使用除了问题，导致无法运行
HYPERPARAMETER TUNING WITH RAY TUNE
2020-10-21 13:58

孙琪翔的博客 Ray Tune包括最新的超参数搜索算法，与TensorBoard等分析库集成，并通过Ray’s distributed machine learning engine本地支持分布式训练。在本教程中，我们将向大家展示如何将Ray Tune集成到Py Torch培训..
机器学习框架Ray -- 3.3 RLlib训练BipedalWalkerHardcore
2023-05-06 23:05

Augenstern-YaoYao的博客 500_000 rollout_fragment_length 64 训练代码为 import gymnasium as gym from ray.rllib.algorithms.apex_ddpg.apex_ddpg import ApexDDPGConfig from ray.rllib.algorithms.ppo import PPOConfig from ray.tune....
强化学习rllib简明教程 ray
2021-02-23 16:52

Lejeune的博客强化学习rllib简明教程 ray 之前说到强化学习的库，推荐了tianshou，但是tianshou实现的功能还不够多，于是转向rllib，个人还是很期待tianshou的发展。回到rllib...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月2日

悬赏问题

¥15 用verilog实现tanh函数和softplus函数
¥15 求京东批量付款能替代天诚
¥15 slaris 系统断电后，重新开机后一直自动重启
¥15 谁能帮我看看这拒稿理由啥意思啊阿啊
¥15 关于vue2中methods使用call修改this指向的问题
¥15 idea自动补全键位冲突
¥15 请教一下写代码，代码好难
¥15 iis10中如何阻止别人网站重定向到我的网站
¥15 滑块验证码移动速度不一致问题
¥15 Utunbu中vscode下cern root工作台中写的程序root的头文件无法包含

ray.tune无法保存checkpoint文件

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新