卑微小熊 2022-08-12 21:21 采纳率: 50%

已结题

在yolov3下训练自己的数据集卡住

我在进行voc数据集的训练，使用yolov3
并根据这个流程
https://blog.csdn.net/weixin_43818251/article/details/89548583

darknet训练卡住
我使用命令
./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74 >> /home/heying/darknet/scripts/VOCdevkit/VOC2020/traffic_light.log

就是这个终端一直是这样的，这正常吗

问题相关代码

显卡

使用的cfg/voc.data文件

classes= 3
train  = /home/heying/darknet/scripts/2020_train.txt
valid  = /home/heying/darknet/scripts/2020_test.txt
names = data/voc2020.names
backup = /home/pjreddie/backup/

使用的cfg/yolov3-voc.cfg文件

[net]
# Testing
 batch=1
 subdivisions=1
# Training        #训练模式 每次前向图片的数目=batch/subdivisions


#关于batch与subdivision：在训练输出中，训练迭代包括8组，
#这些batch样本又被平均分成subdivision=8次送入网络参与训练，
#以减轻内存占用的压力；batch越大，训练效果越好，subdivision越大，占用内存压力越小
# batch=64
# subdivisions=16


#网络输入的宽、高、通道数这三个参数中，要求width==height, 并且为32的倍数
#大分辨率可以检测到更加细小的物体，从而影响precision
width=416        #只能是32的倍数
height=416
channels=3
momentum=0.9        #动量，影响梯度下降到最优的速度，一般默认0.9
decay=0.0005        #权重衰减正则系数，防止过拟合
angle=0            #旋转角度，从而生成更多训练样本
saturation = 1.5    #调整饱和度，从而生成更多训练样本
exposure = 1.5        #调整曝光度，从而生成更多训练样本
hue=.1            #调整色调，从而生成更多训练样本


#学习率决定了权值更新的速度，学习率大，更新的就快，但太快容易越过最优值，
#而学习率太小又更新的慢，效率低，一般学习率随着训练的进行不断更改，
#先高一点，然后慢慢降低，一般在0.01--0.001
learning_rate=0.001


#学习率控制的参数，在迭代次数小于burn_in时，其学习率的更新有一种方式，大于burn_in时，才采用policy的更新方式
burn_in=1000


#迭代次数，1000次以内，每训练100次保存一次权重，1000次以上，每训练10000次保存一次权重
max_batches = 50200
policy=steps        # 学习率策略，学习率下降的方式
steps=40000,45000    #学习率变动步长

#学习率变动因子：如迭代到40000次时，学习率衰减十倍，45000次迭代时，学习率又会在前一个学习率的基础上衰减十倍
scales=.1,.1



[convolutional]
batch_normalize=1    #BN
filters=32        #卷积核数目
size=3            #卷积核尺寸
stride=1        #做卷积运算的步长


#如果pad为0,padding由 padding参数指定；
#如果pad为1，padding大小为size/2，
#padding应该是对输入图像左边缘拓展的像素数量
pad=1
activation=leaky    #激活函数类型

# Downsample
【后面的没有修改】

在卡住的过程中的log文件

 CUDNN_HALF=1
0,1
yolov3-voc
net.optimized_memory = 0
mini_batch = 1, batch = 1, time_steps = 1, train = 1
Create CUDA-stream - 0
 Create cudnn-handle 0
 CUDNN_HALF=1
0,1
yolov3-voc
net.optimized_memory = 0
mini_batch = 1, batch = 1, time_steps = 1, train = 1
Create CUDA-stream - 0
 Create cudnn-handle 0

 seen 64, trained: 0 K-images (0 Kilo-batches_64)
CUDA status Error: file: ./src/dark_cuda.c : () : line: 38 : build time: Mar  7 2022 - 16:11:01

 CUDA Error: invalid device ordinal
 CUDNN_HALF=1
0
yolov3-voc
net.optimized_memory = 0
mini_batch = 1, batch = 1, time_steps = 1, train = 1
Create CUDA-stream - 0
 Create cudnn-handle 0
 CUDNN_HALF=1
0
yolov3-voc
net.optimized_memory = 0
mini_batch = 1, batch = 1, time_steps = 1, train = 1
Create CUDA-stream - 0
 Create cudnn-handle 0
 CUDNN_HALF=1
yolov3-voc
net.optimized_memory = 0
mini_batch = 1, batch = 1, time_steps = 1, train = 1
Create CUDA-stream - 0
 Create cudnn-handle 0
 CUDNN_HALF=1
yolov3-voc
net.optimized_memory = 0
mini_batch = 1, batch = 1, time_steps = 1, train = 1
Create CUDA-stream - 0
 Create cudnn-handle 0
 CUDNN_HALF=1
yolov3-voc
net.optimized_memory = 0
mini_batch = 1, batch = 1, time_steps = 1, train = 1
Create CUDA-stream - 0
 Create cudnn-handle 0

我的解答思路和尝试过的方法

权重文件换成了yolov3.weights也还是卡住

说明

使用的voc数据集在我的另一台nvidia AGX 中jetson-inference里训练是正常的，出来的模型识别效果良好

使用的主机是英特尔（Intel）NUC11PHKi7CAA幻影峡谷11代酷睿i7RTX2060独显迷你电脑主机
https://item.jd.com/10028216825202.html

现在临时想到能够提供的暂时这些，如有解决方案我将不胜感激

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
kakaccys 2022-08-13 07:47
关注
看darknet的git，解决方案是将cuda升级到11.1，cudnn也升级，才能解决这个卡住的问题，和显卡有点关系

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

在yolov3下训练自己的数据集卡住 ubuntu 深度学习目标检测
2022-08-12 21:21

回答 2 已采纳看darknet的git，解决方案是将cuda升级到11.1，cudnn也升级，才能解决这个卡住的问题，和显卡有点关系
YOLOv5训练自己的数据集测试结果相反？ pycharm 算法
2022-10-20 23:29

回答 2 已采纳你不会注册数据集的时候搞反了吧？
yolov3训练自己的数据集图片格式问题 keras python 计算机视觉
2021-10-19 11:07

回答 1 已采纳问题一：直接resize()问题二：单独放在一个文件夹下面
使用Yolov4训练自己的数据集(20240415版）
2024-04-15 23:55

冰万森的博客本实验使用了Yolov4和PyTorch训练了水果数据集，实现水果的识别分类，数据集主要有dragon fruit，snake fruit，pineapple(火龙果、蛇果、菠萝)三种水果的图片共计200张，最后mAP达到89.17%，并成功预测了水果图片的...
yolov5训练自己的数据集时出现的的问题人工智能开发语言深度学习
2022-05-25 21:20

回答 1 已采纳配置文件后缀是yaml而不是pt模型
yolov4在cpu下如何配置及训练自己的数据集 keras pytorch 目标检测
2022-02-22 23:21

回答 1 已采纳如果你都没经历过的话，比较建议的是用yolov5，pytorch框架，V4需要darknet，这里的编译也是一大问题。当然，如果你的C++功底可以，直接走darknet，可以改一些源码来完成部分的需求
yolov7训练自己的数据集的时候一直报错机器学习深度学习
2023-04-13 09:11

回答 2 已采纳路径要么\\，要么用/.实际上，你的数据是有读取到的，但是标签为空或者有标签找不到对应的图片？而你这个数据集，应该写到train就可以了，我不知道你的train.txt里面的数据是否正确，所以你直接写
使用 COCO 数据集训练 YOLOv4-CSP 模型
2022-06-01 17:56

杭州的平湖秋月的博客前言如果完全按照 YOLO 的论文，并不能直接训练出一个好用的物体探测 object detection 模型。...下面是我用 COCO 2017 数据集中的少量图片，对 YOLOv4-CSP 模型进行训练的结果。使用框架为 Keras/TensorFlow 2.9。
yolov5训练自己的数据集train.py python
2022-04-29 09:10

回答 2 已采纳你这槽点不是一般的多，cuda要和前面的匹配，前面的cuda版本号要一致
为什么在有的Yolov5数据集只划分了训练集和验证集机器学习计算机视觉
2022-05-09 19:49

回答 1 已采纳训练集相当于课后的作业，用于日常的知识巩固验证集相当于月考，用来纠正和强化学到的知识测试集相当于期末考试，用来最终评估学习效果测试集并不会影响模型最终的性能。
yolov4训练数据集出错。 python tensorflow 有问必答深度学习
2021-07-03 07:13

回答 2 已采纳对于此问题，从网上查阅看解决的尝试多种多样，主要有，1.将代码中使用np的函数改成用tf中的函数。如bias_inv = np.arctanh(bias)，改成bias_inv = tf.math.a
使用YOLOv5训练自己的数据集时，遇到的问题
2023-05-02 12:19

无敌香香人的博客用于记录自己的一些bug经历如果需要在自己的数据集上面训练YOLOv5，那么首先要参考官方教程。
yolov5增加数据集需要整个重新训练吗？(语言-python) python pytorch 深度学习
2022-02-17 14:25

回答 1 已采纳不需要，之前模型训练好了打包出来，有个参数文件，下次直接把这个参数model.load_weights（）把之前的参数load进去，然后只训练新的数据就行
YOLOv5训练自己数据集时卡在Transferred 342/349 items from weights/yolov5s.pt的解决方法
2023-05-18 21:11

xofc222的博客原因也很简单，yolov5用一张外网的图测试，而我的网络不支持我使用这张图，它也不报错，就在那硬耗着，使用这张图的前提是有网，你让他判断你没网他就自己随机生成一张图片测试了。今天，我从下午4点，查这个东西查...
(转载）YOLOv5 实现目标检测（训练自己的数据集实现猫猫识别）
2023-12-01 10:28

lishi_1991的博客 YOLOv5 实现目标检测（训练自己的数据集实现猫猫识别）
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金50元 8月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月12日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

在yolov3下训练自己的数据集卡住

在yolov3下训练自己的数据集卡住

问题相关代码

我的解答思路和尝试过的方法

说明

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新