nccl-test出现overrun怎么排查

nccl-test，overrun怎么排查。
具体描述，在运行的时候，ring算法能正常运行，但是tree算法中小于1M的数据会overrun，也就是卡死。
报错如下：

[worker03:29830] 7 more processes have sent help message help-mpi-btl-openib.txt / no device params found
[worker03:29830] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages
[worker03:29830] 7 more processes have sent help message help-mpi-btl-openib.txt / ib port not selected
[worker03:29830] 7 more processes have sent help message help-mpi-btl-openib.txt / error in device init
worker03: Test CUDA failure all_reduce.cu:36 'unknown error'
 .. worker03 pid 29866: Test failure common.cu:589
 .. worker03 pid 29866: Test failure common.cu:711
 .. worker03 pid 29866: Test failure all_reduce.cu:101
 .. worker03 pid 29866: Test failure common.cu:725
 .. worker03 pid 29866: Test failure common.cu:1166
 .. worker03 pid 29866: Test failure common.cu:964
worker03: Test CUDA failure all_reduce.cu:36 'unknown error'
 .. worker03 pid 29865: Test failure common.cu:589
 .. worker03 pid 29865: Test failure common.cu:711
 .. worker03 pid 29865: Test failure all_reduce.cu:101
 .. worker03 pid 29865: Test failure common.cu:725
 .. worker03 pid 29865: Test failure common.cu:1166
 .. worker03 pid 29865: Test failure common.cu:964
worker03: Test CUDA failure all_reduce.cu:36 'unknown error'
 .. worker03 pid 29864: Test failure common.cu:589
 .. worker03 pid 29864: Test failure common.cu:711
 .. worker03 pid 29864: Test failure all_reduce.cu:101
 .. worker03 pid 29864: Test failure common.cu:725
 .. worker03 pid 29864: Test failure common.cu:1166
 .. worker03 pid 29864: Test failure common.cu:964
worker03:29870:29870 [5] NCCL INFO ncclEnqueueCheck isAsync:0

不需要给出原因分析。请告诉我应该用哪些方式排查，例如在哪些文件里面添加注释和中断

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-25 15:21
关注
引自免费微信小程序：皆我百晓生

针对NCCL测试中的overrun问题，可以按照以下步骤进行排查：

检查网络配置:

确保所有节点都正确配置了InfiniBand（IB）或RoCE（RDMA over Converged Ethernet）网络。
检查交换机设置，确保端口速率、双工模式和其他参数匹配。

检查OpenIB库:

更新到最新版本的OpenIB库，包括libibverbs、rdma-core、openib-utils等。
验证安装是否正确，可以通过运行ompi_info | grep openib查看OpenIB支持情况。

调整内核参数:

可能需要调整一些内核参数以优化IB性能，比如增加队列对（Queue Pairs, QPs）、队列深度（Queue Depth, QD）等。可以在 /etc/sysctl.conf 或 /etc/modprobe.d/openib.conf 中进行调整。

# 增加QPs数量 kernel.shm_rmid_forced = 1 kernel.shmmax = 2147483648 kernel.shmall = 2147483648 # 增加QD rds.max_xmit_frag = 65535

检查硬件资源:

确保每个GPU有足够的内存用于NCCL通信。
检查CPU负载，过高的CPU负载可能会影响网络性能。

NCCL配置:

在运行NCCL测试时，尝试指定不同的NCCL通信库选项，例如--use-gpu-device、--verb=DEBUG等，以便获取更详细的日志信息。
如果使用的是树状通信算法，尝试调整ncclCommSetAttribute(comm, NCCL_TREE_THRESHOLD, &threshold)中的阈值，看是否可以解决小数据量的overrun问题。

排查其他软件冲突:

确认没有其他进程占用或干扰了网络连接。

日志分析:

分析错误日志，特别是与mpi-btl-openib.txt相关的部分，这通常表示OpenIB通信的问题。
打开调试级别，通过在运行nccl-test时加上--verb=DEBUG参数，获取更多关于错误发生时的上下文信息。

代码层面排查:

在all_reduce.cu源码中加入打印语句，定位具体出错的位置。
在关键点添加断点，使用GDB或其他调试工具单步执行程序，观察变量状态和调用堆栈。

社区求助:

如果以上方法都无法解决问题，可以考虑在NVIDIA Developer论坛或GitHub上找到NCCL的官方仓库，提交一个详细的bug报告，包括环境信息、配置、错误日志以及你的尝试。

由于这是一个文本交互平台，无法提供实际的代码插入和绘图服务。请根据上述建议自行操作，并密切关注输出的日志和系统资源监控，逐步排除问题。如果有进一步的疑问或需要更具体的指导，请随时提问。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

yolov3训练：AssertionError: Model accepts 2 classes labeled from 0-1, however you labelled a class 18. python 深度学习目标检测
2022-02-13 21:36

回答 1 已采纳提问注重方法，你这一大段代码别人没时间给你看！错误提示已经很明显了，模型的cls分类是2，但是数据给的cls是30.修改一下模型的配置即可。
yolox报错无法训练数据深度学习
2023-01-09 11:10

回答 2 已采纳报错应该是你的数据集路径啥给的不对导致数据为空的报错，检查一下你用的voc路径，数据集格式啥的对不对
nccl-tests:NCCL测试
2021-05-04 08:04

NCCL测试这些测试同时检查操作的性能和正确性。建造要构建测试，只需键入make 。如果未在/ usr / local / cuda中安装CUDA，则可以指定CUDA_HOME。同样，如果未在/ usr中安装NCCL，则可以指定NCCL_HOME。 $ ...
mpi-nccl-tests:使用GPU Direct RDMA进行MPI + NCCL测试
2021-05-17 07:17

MPI和NCCL GPU直接RDMA测试建造 mkdir build && cd buildcmake .. && make
nccl-repo-ubuntu1804-2.4.2-ga-cuda10.1_1-1_amd64.deb
2021-06-09 16:09

nccl
1. 多机多卡运行nccl-tests和channel获取
2024-02-12 18:45

Pretend ^^的博客 nccl中channel的概念表示一个通信路径，为了更好的利用带宽和网卡，以及同一块数据可以通过多个channel并发通信，nccl会使用多channel，搜索的过程就是搜索出来一组channel。这里-b表示minBytes，-e表示maxBytes，-g...
编译 nccl-tests 项目
2024-01-04 12:48

Eloudy的博客【代码】编译 nccl-tests 项目。
DEBUG -- 安装nccl-tests时的报错
2022-01-24 11:16

零粉丝入门的博客 NCCL 的全称为 Nvidia 聚合通信库（NVIDIA Collective ...在安装完成后需要测试nccl，就可以使用自带的nccl-tests来测试nccl，但是会出现各种各样的错误。找不到nccl.h 在编译nccl-tests时，使用 make ncc
nccl-local-repo-ubuntu2004-2.9.9-cuda11.0_1.0-1_amd64.deb
2021-06-23 15:12

nccl本地安装包，适合ubuntu20.04及cuca11.0以上版本
nccl-repo-ubuntu1604-2.4.8-ga-cuda9.0_1-1_amd64.deb 并行计算nccl
2019-12-17 14:07

tensorflow并行计算库文件nccl,nccl-repo-ubuntu1604-2.4.8-ga-cuda9.0_1-1_amd64.deb 适用于16.04ubuntu系统
nccl-feedstock：nccl的conda-smithy存储库
2021-02-17 11:18

关于nccl 主页：：软件包许可证：BSD-3-Clause 原料许可证：简介：用于集体多GPU通信的优化原语开发：：文档： : NVIDIA集体通信库（NCCL）实现了针对NVIDIA GPU性能优化的多GPU和多节点集体通信原语...
nccl-rccl-parser：基于应用程序运行rccl-testsnccl-tests的工具
2021-02-17 21:24

nccl-rccl-parser 此工具用于直接从应用程序中转出rccl-tests / nccl-test命令，以在运行分布式应用程序时使用RCCL / NCCL模块时识别任何潜在的扩展瓶颈。首先，请克隆以下存储库：git clone --recursive 要运行...
【分布式】入门级NCCL多机并行实践 - 02
2023-10-20 17:53

canmoumou的博客大模型和分布式训练对数据的吞吐量以及并行度都有很高的要求，NCCL就是在这个背景下诞生的。如果你是一个只会写写Python，调用PyTorch和Horovod的算法萌新，可能对于分布式底层的东西不太了解，在下岗热潮中被主管逼...
nccl-repo-ubuntu1604-2.6.4-ga-cuda10.0_1-1_amd64.deb
2020-07-19 13:00

nccl-repo-ubuntu1604-2.6.4-ga-cuda10.0_1-1_amd64.deb，配置pycaffe的时候用于GPU CUDA加速的包，在make文件里面可以进行修改。
nccl-repo-ubuntu1604-2.1.15-ga-cuda9.0_1-1_amd64.deb
2018-07-24 17:46

ubuntu16.04 cuda9.0 nccl2.1.15 多GPU交互
nccl-repo-ubuntu1604-2.1.15-ga-cuda8.0_1-1_amd64.deb
2018-07-24 17:40

ubuntu16.04 cuda8.0 nccl2.1.15 多GPU交互
nccl-repo-ubuntu1604-2.2.12-ga-cuda9.2_1-1_amd64.deb
2018-07-24 17:48

ubuntu16.04 cuda9.2 nccl2.1.12 多GPU交互
【分布式】NCCL部署与测试 - 01
2023-10-07 16:44

canmoumou的博客 NCCL简述，NCCL编译测试，代码结构讲解
nccl-repo-ubuntu1604-2.2.13-ga-cuda9.0_1-1_amd64.deb
2018-07-24 17:45

ubuntu16.04 cuda9.0 nccl2.1.13 多GPU交互
nccl-repo-ubuntu1604-2.2.13-ga-cuda8.0_1-1_amd64.deb
2018-07-24 17:42

ubuntu16.04 cuda8.0 nccl2.1.13 多GPU交互
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月25日

悬赏问题

¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题

nccl-test出现overrun怎么排查

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新