求一个在slurm集群上运行deepspeed项目的教程，最好附带提交给slurm集群的脚本样例

最近在跑deepspeed的一个项目，这个是项目中一个脚本文件，我想写个脚本把这个文件提交给slurm集群，一个结点多卡运行，请问有朋友可以帮忙解决么


set -x

read -r -d '' training_commands <<EOF
../train_sft_selector.py \
    --seed 42 \
    --max_len 2048 \
    --dataset ./datasets/BlueOrca/train.jsonl \
    --dataset_probs 1. \
    --new_dataset ./datasets/RedOrca/train.jsonl \
    --upperlevel_weight 1. \
    --upperlevel_weight_decay 0.03 \
    --train_batch_size 64 \
    --micro_train_batch_size 1 \
    --max_samples 112000 \
    --pretrain meta-llama/Meta-Llama-3-8B-Instruct \
    --ref_constant 0. \
    --selector_activation softmax \
    --selector_name llama3 \
    --save_steps -1 \
    --logging_steps 1 \
    --eval_steps -1 \
    --zero_stage 3 \
    --max_epochs 3 \
    --bf16 \
    --learning_rate 1e-5 \
    --selector_learning_rate 5e-3 \
    --selector_lr_scheduler constant \
    --lr_scheduler constant \
    --gradient_checkpointing \
    --flash_attn \
    --lora_rank 16 \
    --lora_alpha 16 \
    --target_modules q_proj v_proj
EOF
    # --flash_attn 
    # -dataset Dahoas/full-hh-rlhf,./datasets/SlimOrcaEn/train.jsonl \ ./datasets/RedOrca/train.jsonl
    # microsoft/Phi-3-mini-128k-instruct
    #     --lora_rank 16 \
     #   --lora_alpha 16 \
     #   --target_modules qkv_proj o_proj


if [[ ${1} != "slurm" ]]; then
    export PATH=$HOME/.local/bin/:$PATH
    deepspeed --num_gpus 4 $training_commands
fi

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间新星创作者: 前端开发技术领域 2025-03-05 15:41
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
针对这个问题，你可以使用Slurm的sbatch命令来提交作业到集群，并指定所需的GPU资源。以下是解决这个问题的步骤和示例代码：
创建一个脚本文件，例如submit_job.sh，其中包含你想要运行的DeepSpeed项目脚本和参数。
在脚本文件中添加Slurm的sbatch命令，指定所需的GPU资源和其他选项。
使用sbatch命令提交作业到Slurm集群。下面是一个示例submit_job.sh脚本文件的代码：

#!/bin/bash #SBATCH --job-name=deepspeed_job #SBATCH --nodes=1 #SBATCH --tasks-per-node=4 #SBATCH --gres=gpu:4 #SBATCH --time=1:00:00 set -x read -r -d '' training_commands <<EOF ../train_sft_selector.py \ --seed 42 \ --max_len 2048 \ --dataset ./datasets/BlueOrca/train.jsonl \ --dataset_probs 1. \ --new_dataset ./datasets/RedOrca/train.jsonl \ --upperlevel_weight 1. \ --upperlevel_weight_decay 0.03 \ --train_batch_size 64 \ --micro_train_batch_size 1 \ --max_samples 112000 \ --pretrain meta-llama/Meta-Llama-3-8B-Instruct \ --ref_constant 0. \ --selector_activation softmax \ --selector_name llama3 \ --save_steps -1 \ --logging_steps 1 \ --eval_steps -1 \ --zero_stage 3 \ --max_epochs 3 \ --bf16 \ --learning_rate 1e-5 \ --selector_learning_rate 5e-3 \ --selector_lr_scheduler constant \ --lr_scheduler constant \ --gradient_checkpointing \ --flash_attn \ --lora_rank 16 \ --lora_alpha 16 \ --target_modules q_proj v_proj EOF if [[ ${1} != "slurm" ]]; then export PATH=$HOME/.local/bin/:$PATH deepspeed --num_gpus 4 $training_commands fi

使用以下命令提交作业到Slurm集群：

sbatch submit_job.sh

根据实际情况，你可能需要修改脚本文件和sbatch命令中的参数。这样设计的脚本可以在Slurm集群上运行DeepSpeed项目，并且使用一个节点的多个GPU进行计算。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

使用DeepSpeed在Slurm集群上多机跑大模型
2023-07-28 15:55

球球不秃头的博客上面的脚本就是DeepSpeed在Slurm集群中多机运行的脚本，但是直接运行脚本会报错，local_rank无法通过args自动传参，导致没有分布式初始化，需要对。跑Bloom模型，在多机训练时遇到了一点问题，查了一些资料没有发现...
高性能计算集群系统，SLURM集群管理系统基本的组件以及使用方法打、命令参数以及SLURM脚本的编写方法
2023-04-16 16:59

以下是对SLURM集群管理系统的基本组件、常用命令和脚本编写的详细介绍。 **SLURM主要组件：** 1. **slurmctld**：这是管理节点上的守护进程，负责监控所有其他SLURM守护进程和集群资源。它接收作业请求并分配资源...
主流CAE仿真软件如何在Linux&HPC并行计算集群上使用pbs或slurm脚本提交作业（上）？
2024-06-24 07:51

技术瘾君子1573的博客 DYNA，ABAQUS、HFSS、NASTRAN、CST、STAR-CCM+、NUMECA、FEKO、COMSOL在HPC或Linux并行计算集群上如何使用pbs或slurm作业调度系统脚本提交作业以及如何使用软件在命令行提交作业，旨在帮助初入科研行业的小伙伴们，...
Slurm集群节点查询[源码]
2025-12-19 09:41

文章深入介绍了一种通过Bash脚本实现的Slurm集群节点查询方法，该方法比Slurm自带命令提供更加详尽的集群运行信息。首先，文章概述了Slurm集群管理系统的基础知识，重点介绍了系统管理命令`squeue`和`sinfo`，这两个...
在ACK集群上通过容器化部署并运行Slurm
2024-12-15 07:30

2401_88127808的博客 Slurm是一个强大的开源集群资源管理和作业调度平台，专门设计用于优化超级计算机和大型计算集群的性能与效率。其核心组件协同工作，确保系统的高效运作和灵活的管理。Slurm的工作原理如下所示。slurmctld（Slurm ...
在 Slurm 上运行 Jupyter
2024-04-23 13:08

AI让世界更懂你的博客一般的slurm系统提交作业分为2种，一种是srun，这种所见即所得的申请方式一般适用于短期的调试使用，大概一般允许的时间从几个小时到1天左右，很多集群分组都会限制运行时长。而另一种sbatch，则是批量提交作业，当...
YOLOFuse SLURM集群提交脚本模板
2026-01-01 15:16

语文乌托邦的博客针对低光环境下目标检测性能下降问题，YOLOFuse结合RGB与红外图像实现高效双流检测，...配合SLURM集群脚本，支持批量任务提交、容器化运行与超参并行搜索，解决环境不一致与资源管理难题，适用于安防、巡检等实际场景。
总结在HPC集群上使用Slurm登录和运行RStudio的方法如下：
2024-08-20 23:01

请你喝好果汁641的博客 - **Slurm 作业脚本**：编写一个用于提交Slurm作业的脚本，其中指定了作业的资源请求、运行时间、输出日志位置以及启动RStudio Server的命令。#SBATCH --cpus-per-task=1 # 每个任务分配1个CPU。#SBATCH --job-name=...
主流CAE仿真软件如何在Linux&HPC并行计算集群上使用pbs或slurm脚本提交作业（下）？
2024-06-28 21:24

技术瘾君子1573的博客 DYNA，ABAQUS、HFSS、NASTRAN、CST、STAR-CCM+、NUMECA、FEKO、COMSOL在HPC或Linux并行计算集群上如何使用pbs或slurm作业调度系统脚本提交作业以及如何使用软件在命令行提交作业，旨在帮助初入科研行业的小伙伴们，...
grunt：基于git的运行工具：自动在集群上运行作业的python脚本
2021-02-11 22:36

咕unt grunt是一个基于git的运行工具，它通过版本控制（即git）为通用分布式文件系统提供基础结构，以便通过将文件推送到git存储库并拥有远程计算机来在远程计算机上运行命令运行守护程序（ grund ）轮询更新并运行...
查询slurm集群各个节点的运行情况
2024-01-05 09:51

AI让世界更懂你的博客 slurm系统是一个集群，它原生的使用方式可以参考《有时候我们想知道我们能申请哪些节点，以及各个节点的使用情况。原生的指令大概有这两个，一个是使用squeue的方式列举出当前的工作列表。而另一个则是sinfo。这两个...
高性能计算集群资源管理与作业调度系统的应用解析-SLURM
2025-03-25 15:44

内容概要：本文主要介绍了SLURM调度系统在高性能计算集群中的应用。主要内容涵盖了Slurm作为开源、容错性强的大型及小型Linux集群的资源管理和作业调度工具的特点，如何通过命令如sinfo、squeue、sbatch、salloc、...
集群Slurm使用教程
2021-10-20 16:07

Perry 彭儒的博客集群使用方法：(规避一次只能提交3个任务) 先指定一个节点：salloc --nodelist gpu1 SSH gpu1; Tmux 打开后台窗口1 code1.sh; Ctrl+b c 快捷键打开后台窗口 2 code2.sh; (另一种做法：直接Tmux 打开后台窗口2...
cluster-scripts:使用SLURM https的集群的有用脚本，模板和示例的集合
2021-05-05 06:20

myjobs打印所有正在运行的作业（ squeue -u ${USER} ） jobinfo每个用户或节点有关正在运行的作业的信息并协助您提交工作： interactive ＆ interactive_gpu在具有或不具有gpu的节点之一上为您提供交互式作业...
在linux服务器上搭建slurm集群部署
2024-07-11 10:29

上海赛亿数据恢复的博客通过以上步骤，你可以在Linux服务器上成功搭建Slurm集群，并用于高性能计算任务的管理和调度。需要注意的是，每个步骤都需要仔细操作和验证，以确保集群的稳定性和高效性。选择合适的服务器和硬件设备，建议选用多...
HPC&AI并行计算集群Slurm作业调度系统快速上手
2024-09-19 00:00

技术瘾君子1573的博客 Slurm 是一个开源、容错、高度可扩展的集群管理和作业调度系统，适用于大型和小型 Linux 集群。Slurm 的操作不需要修改内核，而且相对独立。作为集群工作负载管理器，slurm 有三个关键功能。首先，它在一段时间内为...
slurm_queue_stats：一些脚本，用于在slurm管理的群集上使用当前的nodecoregpu
2021-02-10 11:51

`slurm_queue_stats` 提供了一种方便的方式来监控和分析SLURM集群的状态，帮助管理员和用户更好地理解资源的使用情况。在这个场景中，`slurm_queue_stats` 脚本库专门设计用于收集关于节点、核心和GPU的信息，这对于...
Slurm集群使用基础
2024-05-24 14:05

Asa12138的博客我们在做生物信息分析时，对于大规模的上游数据的处理，一般需要在大型服务器或集群上进行。我最早接触并使用的是一个基于SLURM调度系统的集群，在此记录一下基础使用方法。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月5日

求一个在slurm集群上运行deepspeed项目的教程，最好附带提交给slurm集群的脚本样例

3条回答 默认 最新

问题事件

3条回答默认最新