使用yolov8做目标检测训练的时候gpu_men一直显示0g，也没有报什么错，就是训练特别慢

查了一下任务管理器，内存也没有被占满，所以有人知道这是为什么吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

码农阿豪@新空间代码工作室 Java领域优质创作者 2024-03-27 15:29

关注

让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言

可能的原因是：

GPU内存管理不当，可能是因为没有正确设置GPU device，导致程序没有占用GPU内存。
数据读取速度慢，导致模型训练速度慢。可能是因为数据集太大，或者数据读取时使用了低效的方法，比如单线程读取等。
模型参数设置不当，可能是学习率过小，导致梯度下降速度过慢。建议参考以下方法进行排查解决：
确认GPU device设置正确。
查看数据读取速度和方法，优化数据预处理和读取方法。
尝试更改模型参数，查看训练速度是否有较大提升。以下是可能的代码实现：
确认GPU device设置正确。

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0" # 指定使用的GPU设备为第0块GPU

优化数据预处理和读取方法。

import tensorflow as tf
from tensorflow.data import Dataset
# 使用TFRecord格式存储数据
def create_tfrecord_dataset(x, y, out_path):
    writer = tf.io.TFRecordWriter(out_path)
    for i in range(len(x)):
        img_bytes = tf.io.encode_jpeg(x[i]).numpy()
        label = y[i]
        example = tf.train.Example(features=tf.train.Features(feature={
            'image': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_bytes])),
            'label': tf.train.Feature(int64_list=tf.train.Int64List(value=label))
        }))
        writer.write(example.SerializeToString())
        
    writer.close()
    
# 读取TFRecord数据
def parse_fn(example_proto):
    features = {
        'image': tf.io.FixedLenFeature([], tf.string),
        'label': tf.io.FixedLenFeature([], tf.int64),
    }
    features = tf.io.parse_single_example(example_proto, features)
    image = tf.io.decode_jpeg(features['image'], channels=3)
    label = features['label']
    return image, label  
# 创建TFRecord格式的训练数据集
trainset = Dataset.from_tensor_slices((train_x, train_y))
trainset = trainset.map(lambda x, y: tf.numpy_function(parse_fn, [x, y], [tf.uint8, tf.int64]))
trainset = trainset.shuffle(1000).batch(32)

更改模型参数

from tensorflow import keras
from keras.optimizers import SGD
model = create_model()
opt = SGD(lr=0.01) # 更改学习率为0.01
model.compile(loss='categorical_crossentropy', optimizer=opt, metrics=['accuracy'])
model.fit(trainset, epochs=10, validation_data=testset)

报告相同问题？

关注问题

YOLOv5使用GPU训练以后无法对目标图片进行识别 python 机器学习目标检测
2023-04-21 01:28

回答 2 已采纳 oom错误，显存不足，将imgs这个参数改小，你这8032的的图片没几张显卡跑的了的
YOLO v5训练使用CPU正常，使用GPU训练 box cls obj均为nan pytorch 深度学习目标检测
2022-01-15 21:21

回答 2 已采纳解决了，既然锁定问题出在显卡上，在坚信不是硬件问题的前提下，只能一遍一遍换驱动版本。刚开始用的最早的驱动版本是11.3，pytorch支持的另一个cuda版本10.2 nvidia官网不支持wind
训练模型的时候显示GPU可使用内存不够，打开任务管理器查看内存是够用是什么情况？ python 人工智能深度学习
2021-07-22 09:48

回答 4 已采纳我的猜测，你可能有一块集成显卡，但没有禁用
2023-08-06 YOLOair 使用GPU训练问题
2023-08-06 17:11

weixin_48447951的博客当前环境：python3.8.8+cuda11.7+pytorch2.0.1结果显示为ture使用设备设置为GPU 0。
跑yolo的时候gpu占用了为0 python 人工智能深度学习
2022-10-25 09:11

回答 2 已采纳显存沾满说明有调用，只不过瓶颈不在GPU，而是你的其他部分，也就是常说的木桶效应，比如你这个明显就是内存不足导致的。另外，很多人有个误解，说GPU使用率不高，是不是没调用，但是实际上这里显示的一般是平
yolov5训练结果只有loss为0 python 机器学习深度学习
2022-10-13 20:50

回答 1 已采纳单个类别的时候，train里面要将single-cls设置为true，或者参数里面加上--single-cls
运行YOLOv5的时候显示cuda:0是什么原因 opencv pycharm python
2022-05-21 14:16

回答 1 已采纳 cuda0,指的是你gpu的编号，就是说使用的是你的第0张显卡。一般用一张显卡都是这样的。
【新手入门】YOLOV5训练数据集全为nan和0
2023-11-20 00:49

哈哈要努力！的博客训练出现以下问题：box、obj、cls全为nan，P、R、map全为0。开始时训练集大小为263，batch_size大小为4。环境：torch 2.0.0+cu118。试着将训练集大小改为260后问题解决。yolov5版本：6.1。显卡：GTX1650。
yolov5训练模型时遇到nan 人工智能机器学习算法
2022-12-31 20:12

回答 2 已采纳很遗憾，我无法确定你遇到的问题的原因。在没有更多的信息的情况下，我只能给出一些潜在的建议。首先，如果你发现模型使用更大的权重文件时在 GPU 上运行会导致数据全部变为 nan，可能是因为你的 GP
pytorch做目标检测，网络训练参数报错 python 有问必答深度学习目标检测
2022-01-07 23:06

回答 1 已采纳你这个报错是参数设置问题，如果按照教程敲，大部分是版本更新问题，试试降低版本
用tensorflow做训练os.environ['CUDA_VISIBLE_DEVICES'] = '/gpu:0' 无法调用gpu执行 tensorflow 人工智能深度学习
2021-09-05 22:51

回答 1 已采纳 os.environ['CUDA_VISIBLE_DEVICES'] = '0' 你就一张显卡，那肯定是写个0就可以了啊，也就是默认编号为0的显卡，你指定1，2，3的话你本身又没有多显卡，那只能
【YOLO学习】目标检测中的基础指标和参数以及阶段
2020-06-16 09:04

Delv_Peter的博客文章目录目标检测中各阶段的意义深度学习中经典的检测方法使用一个阶段（One-Stage）的算法的优缺点使用两个阶段（Two-Stage）的算法优缺点目标检测中的指标IOU指标目标检测 深度学习中经典的检测方法有些检测时...
yolov5为什么默认要训练300次这么多人工智能深度学习神经网络
2021-04-05 20:56

回答 2 已采纳 mmdetection没试过，但是yolov5默认300多次是因为人家是在coco数据集上面训练的，而你看yolov5的主页，里面的各个模型的对比可以看出来，基本上都是300epoch的时候达到较好的
交通灯和交通标志类型检测检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]
2024-08-30 21:23

m0_74241524的博客交通灯和交通标志类型检测检测系统源码分享 # [一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]
如何使用 Yolo v5 对象检测算法进行自定义对象检测
2022-02-04 23:54

woshicver的博客介绍在本文中，将向你解释如何使用 Yolo v5 算法检测和分类60+个不同类型的道路交通标志。我们将从非常基础的开始，涵盖每个步骤，如准备数据集、训练和测试等。在本文中，我们将使用 Wi...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月27日

悬赏问题

¥15 大二软件工程基础大题
¥200 使用python编写程序，采用socket方式获取网页实时刷新的数据，能定时print（）出来就行。
¥15 matlab如何根据图片中的公式绘制e和v的曲线图
¥15 我想用Python（Django）+Vue搭建一个用户登录界面，但是在运行npm run serve时报错了如何解决？
¥15 QQ邮箱过期怎么恢复？
¥15 登录他人的vue项目显示服务器错误
¥15 (标签-android|关键词-app)
¥60 如何批量获取json的url
¥15 comsol仿真压阻传感器
¥15 Python线性规划函数optimize.linprog求解为整数

使用yolov8做目标检测训练的时候gpu_men一直显示0g，也没有报什么错，就是训练特别慢

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新