关于#yolov8训练#的问题，如何解决？


(/home/cx-a100/zb/fjh/ARR) root@cx-a100:/home/cx-a100/zb/fjh/arrow# yolo segment train data=coco8-seg.yaml model=yolov8m-seg.pt epochs=300 imgsz=640 device=0,1,2,3,4,5,6,7
Ultralytics YOLOv8.1.34 🚀 Python-3.10.14 torch-1.13.0+cu117 CUDA:0 (NVIDIA A100-PCIE-40GB, 40396MiB)
                                                             CUDA:1 (NVIDIA A100-PCIE-40GB, 40396MiB)
                                                             CUDA:2 (NVIDIA A100-PCIE-40GB, 40396MiB)
                                                             CUDA:3 (NVIDIA A100-PCIE-40GB, 40396MiB)
                                                             CUDA:4 (NVIDIA A100-PCIE-40GB, 40396MiB)
                                                             CUDA:5 (NVIDIA A100-PCIE-40GB, 40396MiB)
                                                             CUDA:6 (NVIDIA A100-PCIE-40GB, 40396MiB)
                                                             CUDA:7 (NVIDIA A100-PCIE-40GB, 40396MiB)
WARNING ⚠️ Upgrade to torch>=2.0.0 for deterministic training.
engine/trainer: task=segment, mode=train, model=yolov8m-seg.pt, data=coco8-seg.yaml, epochs=300, time=None, patience=100, batch=16, imgsz=640, save=True, save_period=-1, cache=False, device=(0, 1, 2, 3, 4, 5, 6, 7), workers=8, project=None, name=train24, exist_ok=False, pretrained=True, optimizer=auto, verbose=True, seed=0, deterministic=True, single_cls=False, rect=False, cos_lr=False, close_mosaic=10, resume=False, amp=True, fraction=1.0, profile=False, freeze=None, multi_scale=False, overlap_mask=True, mask_ratio=4, dropout=0.0, val=True, split=val, save_json=False, save_hybrid=False, conf=None, iou=0.7, max_det=300, half=False, dnn=False, plots=True, source=None, vid_stride=1, stream_buffer=False, visualize=False, augment=False, agnostic_nms=False, classes=None, retina_masks=False, embed=None, show=False, save_frames=False, save_txt=False, save_conf=False, save_crop=False, show_labels=True, show_conf=True, show_boxes=True, line_width=None, format=torchscript, keras=False, optimize=False, int8=False, dynamic=False, simplify=False, opset=None, workspace=4, nms=False, lr0=0.01, lrf=0.01, momentum=0.937, weight_decay=0.0005, warmup_epochs=3.0, warmup_momentum=0.8, warmup_bias_lr=0.1, box=7.5, cls=0.5, dfl=1.5, pose=12.0, kobj=1.0, label_smoothing=0.0, nbs=64, hsv_h=0.015, hsv_s=0.7, hsv_v=0.4, degrees=0.0, translate=0.1, scale=0.5, shear=0.0, perspective=0.0, flipud=0.0, fliplr=0.5, bgr=0.0, mosaic=1.0, mixup=0.0, copy_paste=0.0, auto_augment=randaugment, erasing=0.4, crop_fraction=1.0, cfg=None, tracker=botsort.yaml, save_dir=runs/segment/train24
Overriding model.yaml nc=80 with nc=2

                   from  n    params  module                                       arguments                     
  0                  -1  1      1392  ultralytics.nn.modules.conv.Conv             [3, 48, 3, 2]                 
  1                  -1  1     41664  ultralytics.nn.modules.conv.Conv             [48, 96, 3, 2]                
  2                  -1  2    111360  ultralytics.nn.modules.block.C2f             [96, 96, 2, True]             
  3                  -1  1    166272  ultralytics.nn.modules.conv.Conv             [96, 192, 3, 2]               
  4                  -1  4    813312  ultralytics.nn.modules.block.C2f             [192, 192, 4, True]           
  5                  -1  1    664320  ultralytics.nn.modules.conv.Conv             [192, 384, 3, 2]              
  6                  -1  4   3248640  ultralytics.nn.modules.block.C2f             [384, 384, 4, True]           
  7                  -1  1   1991808  ultralytics.nn.modules.conv.Conv             [384, 576, 3, 2]              
  8                  -1  2   3985920  ultralytics.nn.modules.block.C2f             [576, 576, 2, True]           
  9                  -1  1    831168  ultralytics.nn.modules.block.SPPF            [576, 576, 5]                 
 10                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 11             [-1, 6]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 12                  -1  2   1993728  ultralytics.nn.modules.block.C2f             [960, 384, 2]                 
 13                  -1  1         0  torch.nn.modules.upsampling.Upsample         [None, 2, 'nearest']          
 14             [-1, 4]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 15                  -1  2    517632  ultralytics.nn.modules.block.C2f             [576, 192, 2]                 
 16                  -1  1    332160  ultralytics.nn.modules.conv.Conv             [192, 192, 3, 2]              
 17            [-1, 12]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 18                  -1  2   1846272  ultralytics.nn.modules.block.C2f             [576, 384, 2]                 
 19                  -1  1   1327872  ultralytics.nn.modules.conv.Conv             [384, 384, 3, 2]              
 20             [-1, 9]  1         0  ultralytics.nn.modules.conv.Concat           [1]                           
 21                  -1  2   4207104  ultralytics.nn.modules.block.C2f             [960, 576, 2]                 
 22        [15, 18, 21]  1   5160182  ultralytics.nn.modules.head.Segment          [2, 32, 192, [192, 384, 576]] 
YOLOv8m-seg summary: 331 layers, 27240806 parameters, 27240790 gradients, 110.4 GFLOPs

Transferred 531/537 items from pretrained weights
DDP: debug command /home/cx-a100/zb/fjh/ARR/bin/python -m torch.distributed.run --nproc_per_node 8 --master_port 40671 /root/.config/Ultralytics/DDP/_temp_hk7ijrg_140128794374688.py
Error: mkl-service + Intel(R) MKL: MKL_THREADING_LAYER=INTEL is incompatible with libgomp-a34b3233.so.1 library.
    Try to import numpy first or set the threading layer accordingly. Set MKL_SERVICE_FORCE_INTEL to force it.
Traceback (most recent call last):
  File "/home/cx-a100/zb/fjh/ARR/bin/yolo", line 8, in <module>
    sys.exit(entrypoint())
  File "/home/cx-a100/zb/fjh/ARR/lib/python3.10/site-packages/ultralytics/cfg/__init__.py", line 582, in entrypoint
    getattr(model, mode)(**overrides)  # default args from model
  File "/home/cx-a100/zb/fjh/ARR/lib/python3.10/site-packages/ultralytics/engine/model.py", line 657, in train
    self.trainer.train()
  File "/home/cx-a100/zb/fjh/ARR/lib/python3.10/site-packages/ultralytics/engine/trainer.py", line 208, in train
    raise e
  File "/home/cx-a100/zb/fjh/ARR/lib/python3.10/site-packages/ultralytics/engine/trainer.py", line 206, in train
    subprocess.run(cmd, check=True)
  File "/home/cx-a100/zb/fjh/ARR/lib/python3.10/subprocess.py", line 526, in run
    raise CalledProcessError(retcode, process.args,
subprocess.CalledProcessError: Command '['/home/cx-a100/zb/fjh/ARR/bin/python', '-m', 'torch.distributed.run', '--nproc_per_node', '8', '--master_port', '40671', '/root/.config/Ultralytics/DDP/_temp_hk7ijrg_140128794374688.py']' returned non-zero exit status 1.

为什么单卡可以，多卡就不行了？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-深度学习进阶 2024-03-26 14:28
关注
如果在 numpy 之前导入了 torch，那么这里的子进程将获得一个 GNU 线程层（即使父进程没有定义变量）

但是如果 numpy 在 Torch 之前被导入，子进程将获得一个 INTEL 线程层，这种情况会导致线程之间打架
在环境变量添加

'MKL_SERVICE_FORCE_INTEL' = '1'

Linux 中

export MKL_SERVICE_FORCE_INTEL=1

如果错误信息还是会报

再加入

export MKL_THREADING_LAYER=GNU
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

YOLOv8预训练权重下载失败？HuggingFace镜像源推荐
2025-12-31 16:26

大奇鸭的博客国内开发者常因网络问题无法下载YOLOv8预训练权重，导致项目中断。通过HuggingFace官方镜像源及国内加速站点，结合huggingface_hub工具可稳定高速获取模型文件。配合Docker容器化环境，实现一键预载、跨平台一致部署...
YOLOv8-YOLOv8+Pytorch训练自己的数据集-附全流程教程-优质项目.zip
2024-10-21 06:34

这一流程不仅适用于学术研究，还能够帮助企业在产品中实现先进的人工智能视觉功能，为解决实际问题提供技术支持。通过这种学习和实践，开发者能够更好地理解YOLOv8算法的工作原理和优势，进一步深化对目标检测技术的...
YOLOv8训练中断怎么办？断点续训checkpoint机制详解
2025-12-31 16:26

抽风的Lilith的博客训练中断不再重头来过，YOLOv8的checkpoint机制可完整保存模型、优化器和训练状态，实现无缝续训。掌握last.pt的使用方法与工程实践技巧，有效应对意外宕机、高效调参和团队协作，大幅提升训练稳定性与开发效率。
YOLOv8与YOLOv11命名混乱？版本号真相揭秘
2026-01-01 01:13

阿qi 爱喝拿铁的博客揭开YOLO版本命名乱象，澄清YOLOv11并不存在。聚焦YOLOv8镜像系统，解析其如何通过Docker容器化技术实现开箱即用的训练与推理环境，解决依赖冲突、团队复现难等问题，并支持多平台模型导出，助力AI工程高效落地。
如何获取YOLOv8预训练权重文件yolov8n.pt？
2025-12-31 17:07

抹韵的博客详解YOLOv8中yolov8n.pt的获取方式，涵盖自动下载机制、手动安装、离线部署及Docker集成方案。解析模型加载逻辑与常见错误应对，帮助开发者在不同网络环境下稳定使用预训练权重，提升项目可复现性与部署效率。
yolov10模型训练没有混淆矩阵图和训练结果图？如何解决？
2025-05-10 19:58

bug菌¹的博客本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你...
人工智能+目标识别+yolov8+pyqt5+界面
2023-06-06 13:41

本文将详细探讨"人工智能+目标识别+yolov8+pyqt5+界面"这一主题，深入解析如何利用PyQt5构建用户界面，并通过调用Yolov8实现图像和视频的目标检测。首先，目标识别是人工智能中的一个关键子领域，它涉及计算机视觉...
运行yolov时速度慢，如何解决？
2025-04-30 19:00

bug菌¹的博客本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你...
YOLOv8训练和推理中常见问题分析与优化策略
2025-01-20 14:30

放风铃的兔子的博客模型在自定义数据集上的训练...本文详细分析了使用YOLOv8训练过程中常见的报错场景，并针对每种问题提供了明确的原因和解决方案，同时结合代码实例加以说明。通过系统性地排查和优化，可以有效提升训练效率与模型性能。
YOLOv8权重文件大全
2024-11-04 19:48

YOLOv8权重文件大全涵盖了YOLO系列算法中最新的版本——YOLOv8的多个预训练权重文件。YOLO系列算法是一种流行的目标检测算法，以其准确性和实时性著称，被广泛应用于视频监控、自动驾驶、工业检测等多个领域。YOLOv8...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月26日

关于#yolov8训练#的问题，如何解决？

4条回答 默认 最新

问题事件

4条回答默认最新