ronald1940 2018-05-30 06:22 采纳率: 0%
浏览 10396
已结题

集群slurm srun命令问题

想利用srun来提交4节点的mpi程序
[root@mu01 MPI_IniteDiff3]# srun -N 4 -n 4 -p gpu --gres=gpu:1 ./test
srun: Required node not available (down, drained or reserved)
srun: job 289 queued and waiting for resources

于是我查询sinof
[root@mu01 MPI_IniteDiff3]# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
gpu* up infinite 4 down* cu[01-04]

发现结点状态为down 不是idle
网上搜索命令,
[root@mu01 ~]# scontrol update NodeName=cu[01-04] State=idle
[root@mu01 ~]# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
gpu* up infinite 4 idle* cu[01-04]
发现状态改为idle 然后继续使用上面的srun命令 ,发现还是同样的问题
(貌似好像过一会这个状态就会自己变为down)

于是我输出单个节点的状态信息供大家参考
[root@mu01 ~]# scontrol show node
NodeName=cu01 CoresPerSocket=14
CPUAlloc=0 CPUErr=0 CPUTot=28 CPULoad=N/A
AvailableFeatures=(null)
ActiveFeatures=(null)
Gres=gpu:2
NodeAddr=192.168.100.101 NodeHostName=cu01
RealMemory=1 AllocMem=0 FreeMem=N/A Sockets=2 Boards=1
State=DOWN* ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A
Partitions=gpu
BootTime=None SlurmdStartTime=None
CfgTRES=cpu=28,mem=1M
AllocTRES=
CapWatts=n/a
CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s
Reason=Not responding [slurm@2018-05-30T14:18:24]

 有没有谁帮我看看,给我点意见,我也是刚刚接触集群和slurm调度系统
 谢谢大家了!
  • 写回答

3条回答 默认 最新

  • ronald1940 2018-05-30 06:34
    关注

    节点状态为down(故障) reason是not responding 是不是计算节点没有打开slurm服务呢,在线等!

    评论

报告相同问题?

悬赏问题

  • ¥100 求数学坐标画圆以及直线的算法
  • ¥100 c语言,请帮蒟蒻写一个题的范例作参考
  • ¥15 名为“Product”的列已属于此 DataTable
  • ¥15 安卓adb backup备份应用数据失败
  • ¥15 eclipse运行项目时遇到的问题
  • ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发
  • ¥15 南大pa1 小游戏没有界面,并且报了如下错误,尝试过换显卡驱动,但是好像不行
  • ¥15 自己瞎改改,结果现在又运行不了了
  • ¥15 链式存储应该如何解决
  • ¥15 没有证书,nginx怎么反向代理到只能接受https的公网网站