别无所求_zjz 2024-03-26 12:38 采纳率: 20%
浏览 24
已结题

关于#YOLO多卡训练#的问题,如何解决?


DDP: debug command /home/cx-a100/zb/fjh/ARR/bin/python -m torch.distributed.run --nproc_per_node 8 --master_port 38105 /root/.config/Ultralytics/DDP/_temp_xefwghxp140060695720480.py
Error: mkl-service + Intel(R) MKL: MKL_THREADING_LAYER=INTEL is incompatible with libgomp-a34b3233.so.1 library.
    Try to import numpy first or set the threading layer accordingly. Set MKL_SERVICE_FORCE_INTEL to force it.
Traceback (most recent call last):
  File "/home/cx-a100/zb/fjh/ARR/bin/yolo", line 8, in <module>
    sys.exit(entrypoint())
  File "/home/cx-a100/zb/fjh/ARR/lib/python3.10/site-packages/ultralytics/cfg/__init__.py", line 568, in entrypoint
    getattr(model, mode)(**overrides)  # default args from model
  File "/home/cx-a100/zb/fjh/ARR/lib/python3.10/site-packages/ultralytics/engine/model.py", line 655, in train
    self.trainer.train()
  File "/home/cx-a100/zb/fjh/ARR/lib/python3.10/site-packages/ultralytics/engine/trainer.py", line 208, in train
    raise e
  File "/home/cx-a100/zb/fjh/ARR/lib/python3.10/site-packages/ultralytics/engine/trainer.py", line 206, in train
    subprocess.run(cmd, check=True)
  File "/home/cx-a100/zb/fjh/ARR/lib/python3.10/subprocess.py", line 526, in run
    raise CalledProcessError(retcode, process.args,
subprocess.CalledProcessError: Command '['/home/cx-a100/zb/fjh/ARR/bin/python', '-m', 'torch.distributed.run', '--nproc_per_node', '8', '--master_port', '38105', '/root/.config/Ultralytics/DDP/_temp_xefwghxp140060695720480.py']' returned non-zero exit status 1.

这是我在使用yolov8中的多GPU训练时出现的错误,请问我应该怎么解决这个问题?

  • 写回答

4条回答 默认 最新

  • Kwan的解忧杂货铺 2024-03-26 12:38
    关注

    zjz_cn 中午好🌞🌞🌞
    本答案参考ChatGPT-3.5

    根据错误信息来看,这是一个与mkl-service和libgomp库不兼容的问题。以下是解决问题的一些可能方案:

    1. 设置环境变量:根据错误信息提示,尝试设置环境变量MKL_THREADING_LAYER=INTEL,在运行之前通过export MKL_THREADING_LAYER=INTEL设置。

    2. 设置MKL_SERVICE_FORCE_INTEL:尝试设置环境变量MKL_SERVICE_FORCE_INTEL=1,强制使用Intel的解决方案。

    3. 导入numpy:按照错误信息提示,尝试在你的代码中先导入numpy库,即在代码开头处添加import numpy

    4. 更新torch和mkl-service:确保你的torch和mkl-service库是最新的版本,使用以下命令更新它们:

    pip install torch -U
    pip install mkl-service -U
    
    1. 检查libgomp库:检查你的系统中是否存在libgomp库,如果缺少该库,可以尝试通过以下命令安装:
    sudo apt-get install libomp-dev
    

    请按照上述步骤逐个尝试解决问题,如果问题仍然存在,请提供更多关于你的环境和代码的信息以便更好地帮助你解决问题。

    评论

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 3月30日
  • 创建了问题 3月26日

悬赏问题

  • ¥15 matlab数据降噪处理,提高数据的可信度,确保峰值信号的不损失?
  • ¥15 怎么看我在bios每次修改的日志
  • ¥15 python+mysql图书管理系统
  • ¥15 Questasim Error: (vcom-13)
  • ¥15 船舶旋回实验matlab
  • ¥30 SQL 数组,游标,递归覆盖原值
  • ¥15 为什么我的数据接收的那么慢呀有没有完整的 hal 库并 代码呀有的话能不能发我一份并且我用 printf 函数显示处理之后的数据,用 debug 就不能运行了呢
  • ¥20 gitlab 中文路径,无法下载
  • ¥15 用动态规划算法均分纸牌
  • ¥30 udp socket,bind 0.0.0.0 ,如何自动选取用户访问的服务器IP来回复数据