多节点运行cuda+mpi时报错 cudaEvent报错 10C

我在一个小集群上运行mpi+cuda的程序,设置了cuda计时,但是其中一个节点运行到
CUDA_CALL(cudaEventRecord(stop, 0));
CUDA_CALL(cudaEventSynchronize(stop));
时报错:
CUDA Error: invalid resource handle (err_num=33)
其他节点正常运行,请问这是什么原因。

1个回答

这往往是显存的问题,但是没有办法知道是多节点部署的问题还是你程序本身就有问题,最好加上日志输出下,看看是哪一步出错的。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐