集群slurm srun命令问题

想利用srun来提交4节点的mpi程序
[root@mu01 MPI_IniteDiff3]# srun -N 4 -n 4 -p gpu --gres=gpu:1 ./test
srun: Required node not available (down, drained or reserved)
srun: job 289 queued and waiting for resources

于是我查询sinof
[root@mu01 MPI_IniteDiff3]# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
gpu* up infinite 4 down* cu[01-04]

发现结点状态为down 不是idle
网上搜索命令，
[root@mu01 ~]# scontrol update NodeName=cu[01-04] State=idle
[root@mu01 ~]# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
gpu* up infinite 4 idle* cu[01-04]
发现状态改为idle 然后继续使用上面的srun命令，发现还是同样的问题
（貌似好像过一会这个状态就会自己变为down）

于是我输出单个节点的状态信息供大家参考
[root@mu01 ~]# scontrol show node
NodeName=cu01 CoresPerSocket=14
CPUAlloc=0 CPUErr=0 CPUTot=28 CPULoad=N/A
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=gpu:2
NodeAddr=192.168.100.101 NodeHostName=cu01
RealMemory=1 AllocMem=0 FreeMem=N/A Sockets=2 Boards=1
State=DOWN* ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
Partitions=gpu
BootTime=None SlurmdStartTime=None
CfgTRES=cpu=28,mem=1M
AllocTRES=
CapWatts=n/a
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
Reason=Not responding [slurm@2018-05-30T14:18:24]

 有没有谁帮我看看，给我点意见，我也是刚刚接触集群和slurm调度系统
 谢谢大家了！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ronald1940 2018-05-30 06:34
关注
节点状态为down（故障） reason是not responding 是不是计算节点没有打开slurm服务呢，在线等！

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

向hpc slurm集群提交ansys lsdyna仿真的过程，或许用到ansys rsm centos
2021-12-29 00:30

回答 2 已采纳编写脚本文件通过SSH Secure Shell 提交Linux系统计算
细流实用程序为什么不影响我的动态链接golang程序？ http linux
2016-11-02 18:12

回答 1 已采纳 Trickle relies on using LD_PRELOAD to replace all network related calls through libc with its own
Vim 编写脚本一次提交多个任务 linux vim
2021-06-26 10:48

回答 2 已采纳已解决： for i in *.fasta; do $集
Slurm常用命令总结
2021-12-31 09:55

男孩李的博客查看slurm中集群列表的命令 sacctmgr show cluster 修改配置文件后使配置文件生效 scontrol reconfig 或重启 slurmctld服务显示slurm系统配置命令 scontrol show config systemctl启动、停止、重启、...
socket通信发生了CONNECTION REFUSED 怎么办
2017-12-03 12:39

回答 1 已采纳 http://blog.csdn.net/baohanqing/article/details/37668061
slurm作业提交系统常用命令
2021-10-12 15:30

抹香鲸之海的博客 salloc：为需实时处理的作业分配资源，典型场景为分配资源并启动一个shell，然后用此shell执行srun命令去执行并行任务。 sbatch：提交作业脚本使其运行。此脚本一般也可含有一个或多个srun命令启动并行任务。 ...
slurm srun提示Job credential expired证书过期
2021-04-25 13:59

DaHeiBuHei的博客报错如图，解决办法：将计算节点与主节点时间设置成一样，我错了几分钟，坑爹的，提示太不明显了，百度还搜不到这个问题，困扰了我好几天，结果周六晚上刷抖音偶然刷到一位HPC的大神，进了微信群请教，好家伙直接秒...
slurm基本命令
2022-08-11 15:25

黑狗_Hugo的博客 slurm基本命令，会持续更新，有不对的地方，欢迎批评指正
Slurm作业提交、查询、修改等常用命令
2022-08-28 16:18

Bennett1998的博客高性能计算平台Slurm作业调度系统作业提交、查询、修改等常用命令
【GPU】计算集群Slurm使用
2022-01-26 20:59

小丫么小阿豪的博客之前从来没有用过集群，跑代码都是用单独的服务器，第一次上手组里的集群懵逼了一天。中文的博客大部分都写的很一般，有些我想知道的问题也找不到答案。所以就想着，自己一遍学习一边记录一下，做成一个入门的介绍，...
slurm-gpu集群搭建详细步骤
2021-08-11 16:29

ITIRONMAN的博客从来利用多台机器的计算能力，提高计算效率，之前使用过deepops去搭建，结果最后好像deepops对GPU的卡有要求，我的每台机器卡都不一样，所以后面就开始研究slurm集群的方式了。 1、参考文档之前参考过诸多文档，...
Slurm基础用法
2021-08-18 15:50

muyuu的博客可以直接使用srun命令，其中一些比较有用的参数有：参数用法意义 -p cpu 指定分区为CPU --nodes=N 指定使用的节点数量 --nodelist=comput1 指定特定节点 --cpus-per-task=4 指定 CPU 核心数量 --mem-per-cpu=10G ...
查询slurm集群各个节点的运行情况
2024-01-05 09:51

AI让世界更懂你的博客 slurm系统是一个集群，它原生的使用方式可以参考《有时候我们想知道我们能申请哪些节点，以及各个节点的使用情况。原生的指令大概有这两个，一个是使用squeue的方式列举出当前的工作列表。而另一个则是sinfo。这两个...
使用 Slurm 配置 Nvidia GPU 集群
2024-04-04 13:13

阿姆姆姆姆姆姆姆的博客记录下使用 slurm 搭建 gpu 集群的过程，以下命令都是用 root 用户执行，切记。
slurm作业调度集群搭建及配置
2023-02-08 14:20

吃饭就用盆的博客 slurm集群搭建
slurm mysql_Slurm集群部署
2021-02-11 09:54

郑俊业的博客 Slurm是面向Linux和Unix的开源工作调度程序，由世界上...3、管理待处理作业的工作队列来仲裁资源争用问题；Slurm架构：一、基础环境1、主机名和IP控制节点：192.168.1.11 m1计算节点：192.168.1.12 c1计算节点：192...
基于HPC场景的集群管理系统（slurm系统初相识）
2022-11-09 16:25

AI让世界更懂你的博客交互式作业（srun）这种方式直接使用srun命令获得相关资源，获得之后就会像我们之前单机登录一样使用即可，不过它的作业时间比较短（默认最长2天），只适合跑较小的作业或者调试使用。需要注意的是，一旦关闭终端...
slurm集群安装
2019-10-10 10:03

nice_wen的博客环境：三台物理机，os均为ubuntu-18-04 LTS，hostname分别为tian-609-06、tian-609-07、tian-609-08。其中tian-609-06作为控制节点和计算节点，其他节点作为计算节点。...2、配置/etc/slurm-llnl/slurm.conf...
Slurm提交MPI作业
2016-09-20 09:08

kongxx的博客 Slurm提交MPI作业首先准备一个MPI程序，这里使用python语言的mpi4py库写了一个helloworld.py#!/usr/bin/env python """ Parallel Hello World """from mpi4py import MPI import sys import timesize = MPI.COMM_...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在3D高斯飞溅的渲染的场景中获得一个可控的旋转物体
¥88 实在没有想法，需要个思路
¥15 MATLAB报错输入参数太多
¥15 python中合并修改日期相同的CSV文件并按照修改日期的名字命名文件
¥15 有赏，i卡绘世画不出
¥15 如何用stata画出文献中常见的安慰剂检验图
¥15 c语言链表结构体数据插入
¥40 使用MATLAB解答线性代数问题
¥15 COCOS的问题COCOS的问题
¥15 FPGA-SRIO初始化失败