weixin_43449673 2024-02-27 09:51 采纳率: 50%
浏览 31

mpi分布式调用ib网络

请问谁知道mpi运行分布式代码的时候如何调用ib网络,需要安装什么东西或者运行指令是什么,这是目前的指令,但是ib网络好像没有调用成功
/opt/intel/oneapi/mpi/2021.11/bin/mpirun -np 96 -ppn 48 -env export UCX_NET_DEVICES=mlx5_0:1 -iface eth0 -hosts taskrole1-0,taskrole1-1 ./ocean_only_flagnew

  • 写回答

3条回答 默认 最新

  • GISer Liu 2024-02-27 09:52
    关注

    该回答引用自GPT-3.5,由博主GISer Liu编写:

    针对您的问题,需要确保以下几个方面:

    1. MPI库和IB网络的正确安装和配置。
    2. MPI启动命令的正确设置,包括正确指定IB网络设备和接口。
    3. 网络拓扑的正确配置,确保MPI的进程能够正确地在IB网络上通信。
      您提供的命令中已经指定了UCX_NET_DEVICES为mlx5_0:1,这表明您希望使用mlx5_0这个IB网络设备进行通信。但是,仍然可能存在其他配置或拓扑方面的问题。
      我建议您按照以下步骤进行排查和调试:
    4. 确认IB网络设备的状态:使用命令ibstat或者ibv_devices来查看IB网络设备的状态,确保mlx5_0设备处于活跃状态。
    5. 检查MPI库的安装和配置:确保MPI库已经正确安装,并且配置了IB网络支持。有些MPI库可能需要额外的配置才能启用IB网络支持,您可以查阅相应的文档或者配置文件。
    6. 检查MPI启动命令:您已经使用了-env export UCX_NET_DEVICES=mlx5_0:1来指定IB网络设备,但是您还需要确保MPI的进程能够通过IB网络进行通信。可以尝试使用-iface ib0或者-iface mlx5_0来指定IB网络接口,确保MPI进程能够正确地在IB网络上通信。
    7. 检查网络拓扑:确保MPI的进程能够正确地在IB网络上通信,需要确保MPI的进程位于相同的子网,并且能够相互通信。可以使用工具如ibhosts来查看IB网络的拓扑,确保MPI的进程能够正确地路由到目标进程。
      根据以上步骤进行排查和调试,应该能够解决您遇到的IB网络调用问题。如果问题仍然存在,建议提供更多的信息,例如MPI库的具体版本、IB网络设备的配置信息等,以便更好地定位问题。

    如果该回答解决了您的问题,请采纳!如果没有,请参考以下方案进行修订

    用户答题指南

    评论

报告相同问题?

问题事件

  • 创建了问题 2月27日

悬赏问题

  • ¥15 sqlite加密问题咨询
  • ¥15 appdesigner接收不到udp组播的数据
  • ¥15 谁能解一下这个,限时1个半小时内有酬金
  • ¥15 verilog 非阻塞赋值下的移位拼接错误
  • ¥100 两个按钮控制一个LED
  • ¥15 用C语言写离散数学相关问题
  • ¥30 如何用python的GephiStreamer连接到gephi中,把Python和Gephi的具体操作过程都展示,重点回答Gephi软件的调试,以及如果代码的端口在浏览器中无法显示怎么处理
  • ¥15 ansys机翼建模肋参数
  • ¥15 Sumo软件无法运行
  • ¥15 如何在vscode里搭建stata的编辑环境?