刘colleger 2024-10-09 21:17 采纳率: 50%
浏览 790
已结题

torch.multiprocessing.spawn.ProcessExitedException: process 1 terminated with signal SIGKILL

运行mask2former进行训练,使用8张GPU进行分布式训练,每次训练完一轮进行验证后都出现这个问题,50次迭代和5000次迭代测试都会出现这个问题,改过batch也没用。2.4的torch,3.9的python
raise ProcessExitedException(
torch.multiprocessing.spawn.ProcessExitedException: process 1 terminated with signal SIGKILL
(mask2former) liuhj@liuhj-NF5468M5:~/workspace/lhj/Mask2Former-main$ /home/liuhj/anaconda3/envs/mask2former/lib/python3.9/multiprocessing/resource_tracker.py:216: UserWarning: resource_tracker: There appear to be 320 leaked semaphore objects to clean up at shutdown

  • 写回答

18条回答 默认 最新

  • 专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-10-09 21:18
    关注

    以下回复引自免费微信小程序:皆我百晓生。 如问题解决,还请采纳。如仍有疑问,请回复留言或私信博主,以便获得更精准的帮助。

    问题描述:在深度学习中,当使用多进程进行训练时,由于网络参数的更新导致模型停止训练,并且多次迭代测试也出现类似的问题。尝试修改网络结构、减少网络参数、增加网络参数等方法都无法解决问题。请提供具体代码示例来帮助诊断并解决这个问题。

    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 10月10日
  • 创建了问题 10月9日