关于fasterrcnn的train.py报错“段错误，核心已转储”

本人在Linux上运行train.py代码，结果出现如题报错，找不到原因

import numpy as np
import torch
import torch.backends.cudnn as cudnn
import torch.optim as optim
from torch.utils.data import DataLoader

from nets.frcnn import FasterRCNN
from nets.frcnn_training import FasterRCNNTrainer, weights_init
from utils.callbacks import LossHistory
from utils.dataloader import FRCNNDataset, frcnn_dataset_collate
from utils.utils import get_classes
from utils.utils_fit import fit_one_epoch

'''
训练自己的目标检测模型一定需要注意以下几点：
1、训练前仔细检查自己的格式是否满足要求，该库要求数据集格式为VOC格式，需要准备好的内容有输入图片和标签
   输入图片为.jpg图片，无需固定大小，传入训练前会自动进行resize。
   灰度图会自动转成RGB图片进行训练，无需自己修改。
   输入图片如果后缀非jpg，需要自己批量转成jpg后再开始训练。

   标签为.xml格式，文件中会有需要检测的目标信息，标签文件和输入图片文件相对应。

2、训练好的权值文件保存在logs文件夹中，每个epoch都会保存一次，如果只是训练了几个step是不会保存的，epoch和step的概念要捋清楚一下。
   在训练过程中，该代码并没有设定只保存最低损失的，因此按默认参数训练完会有100个权值，如果空间不够可以自行删除。
   这个并不是保存越少越好也不是保存越多越好，有人想要都保存、有人想只保存一点，为了满足大多数的需求，还是都保存可选择性高。

3、损失值的大小用于判断是否收敛，比较重要的是有收敛的趋势，即验证集损失不断下降，如果验证集损失基本上不改变的话，模型基本上就收敛了。
   损失值的具体大小并没有什么意义，大和小只在于损失的计算方式，并不是接近于0才好。如果想要让损失好看点，可以直接到对应的损失函数里面除上10000。
   训练过程中的损失值会保存在logs文件夹下的loss_%Y_%m_%d_%H_%M_%S文件夹中

4、调参是一门蛮重要的学问，没有什么参数是一定好的，现有的参数是我测试过可以正常训练的参数，因此我会建议用现有的参数。
   但是参数本身并不是绝对的，比如随着batch的增大学习率也可以增大，效果也会好一些；过深的网络不要用太大的学习率等等。
   这些都是经验上，只能靠各位同学多查询资料和自己试试了。
'''  
if __name__ == "__main__":
    #-------------------------------#
    #   是否使用Cuda
    #   没有GPU可以设置成False
    #-------------------------------#
    Cuda = True
    #--------------------------------------------------------#
    #   训练前一定要修改classes_path，使其对应自己的数据集
    #--------------------------------------------------------#
    classes_path    = 'model_data/voc_classes.txt'
    #----------------------------------------------------------------------------------------------------------------------------#
    #   权值文件的下载请看README，可以通过网盘下载。模型的 预训练权重 对不同数据集是通用的，因为特征是通用的。
    #   模型的 预训练权重 比较重要的部分是 主干特征提取网络的权值部分，用于进行特征提取。
    #   预训练权重对于99%的情况都必须要用，不用的话主干部分的权值太过随机，特征提取效果不明显，网络训练的结果也不会好
    #
    #   如果训练过程中存在中断训练的操作，可以将model_path设置成logs文件夹下的权值文件，将已经训练了一部分的权值再次载入。
    #   同时修改下方的 冻结阶段 或者 解冻阶段 的参数，来保证模型epoch的连续性。
    #   
    #   当model_path = ''的时候不加载整个模型的权值。
    #
    #   此处使用的是整个模型的权重，因此是在train.py进行加载的，下面的pretrain不影响此处的权值加载。
    #   如果想要让模型从主干的预训练权值开始训练，则设置model_path = ''，下面的pretrain = True，此时仅加载主干。
    #   如果想要让模型从0开始训练，则设置model_path = ''，下面的pretrain = Fasle，Freeze_Train = Fasle，此时从0开始训练，且没有冻结主干的过程。
    #   一般来讲，从0开始训练效果会很差，因为权值太过随机，特征提取效果不明显。
    #
    #   网络一般不从0开始训练，至少会使用主干部分的权值，有些论文提到可以不用预训练，主要原因是他们 数据集较大 且 调参能力优秀。
    #   如果一定要训练网络的主干部分，可以了解imagenet数据集，首先训练分类模型，分类模型的 主干部分 和该模型通用，基于此进行训练。
    #----------------------------------------------------------------------------------------------------------------------------#
    model_path      = 'model_data/voc_weights_resnet.pth'
    #------------------------------------------------------#
    #   输入的shape大小
    #------------------------------------------------------#
    input_shape     = [600, 600]
    #---------------------------------------------#
    #   vgg或者resnet50
    #---------------------------------------------#
    backbone        = "resnet50"
    #----------------------------------------------------------------------------------------------------------------------------#
    #   是否使用主干网络的预训练权重，此处使用的是主干的权重，因此是在模型构建的时候进行加载的。
    #   如果设置了model_path，则主干的权值无需加载，pretrained的值无意义。
    #   如果不设置model_path，pretrained = True，此时仅加载主干开始训练。
    #   如果不设置model_path，pretrained = False，Freeze_Train = Fasle，此时从0开始训练，且没有冻结主干的过程。
    #----------------------------------------------------------------------------------------------------------------------------#
    pretrained      = False
    #------------------------------------------------------------------------#
    #   anchors_size用于设定先验框的大小，每个特征点均存在9个先验框。
    #   anchors_size每个数对应3个先验框。
    #   当anchors_size = [8, 16, 32]的时候，生成的先验框宽高约为：
    #   [90, 180] ; [180, 360]; [360, 720]; [128, 128]; 
    #   [256, 256]; [512, 512]; [180, 90] ; [360, 180]; 
    #   [720, 360]; 详情查看anchors.py
    #   如果想要检测小物体，可以减小anchors_size靠前的数。
    #   比如设置anchors_size = [4, 16, 32]
    #------------------------------------------------------------------------#
    anchors_size    = [8, 16, 32]

    #----------------------------------------------------#
    #   训练分为两个阶段，分别是冻结阶段和解冻阶段。
    #   显存不足与数据集大小无关，提示显存不足请调小batch_size。
    #----------------------------------------------------#
    #----------------------------------------------------#
    #   冻结阶段训练参数
    #   此时模型的主干被冻结了，特征提取网络不发生改变
    #   占用的显存较小，仅对网络进行微调
    #----------------------------------------------------#
    Init_Epoch          = 0
    Freeze_Epoch        = 50
    Freeze_batch_size   = 4
    Freeze_lr           = 1e-4
    #----------------------------------------------------#
    #   解冻阶段训练参数
    #   此时模型的主干不被冻结了，特征提取网络会发生改变
    #   占用的显存较大，网络所有的参数都会发生改变
    #----------------------------------------------------#
    UnFreeze_Epoch      = 100
    Unfreeze_batch_size = 4
    Unfreeze_lr         = 1e-5
    #------------------------------------------------------#
    #   是否进行冻结训练，默认先冻结主干训练后解冻训练。
    #------------------------------------------------------#
    Freeze_Train        = True
    #------------------------------------------------------#
    #   用于设置是否使用多线程读取数据
    #   开启后会加快数据读取速度，但是会占用更多内存
    #   内存较小的电脑可以设置为2或者0  
    #------------------------------------------------------#
    num_workers         = 0
    #----------------------------------------------------#
    #   获得图片路径和标签
    #----------------------------------------------------#
    train_annotation_path   = '2007_train.txt'
    val_annotation_path     = '2007_val.txt'
    
    #----------------------------------------------------#
    #   获取classes和anchor
    #----------------------------------------------------#
    class_names, num_classes = get_classes(classes_path)

    model = FasterRCNN(num_classes, anchor_scales = anchors_size, backbone = backbone, pretrained = pretrained)
    if not pretrained:
        weights_init(model)
    if model_path != '':
        #------------------------------------------------------#
        #   权值文件请看README，百度网盘下载
        #------------------------------------------------------#
        print('Load weights {}.'.format(model_path))
        device          = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        model_dict      = model.state_dict()
        pretrained_dict = torch.load(model_path, map_location = device)
        pretrained_dict = {k: v for k, v in pretrained_dict.items() if np.shape(model_dict[k]) == np.shape(v)}
        model_dict.update(pretrained_dict)
        model.load_state_dict(model_dict)

    model_train = model.train()
    if Cuda:
        model_train = torch.nn.DataParallel(model)
        cudnn.benchmark = True
        model_train = model_train.cuda()

    loss_history    = LossHistory("logs/")

    #---------------------------#
    #   读取数据集对应的txt
    #---------------------------#
    with open(train_annotation_path) as f:
        train_lines = f.readlines()
    with open(val_annotation_path) as f:
        val_lines   = f.readlines()
    num_train   = len(train_lines)
    num_val     = len(val_lines)

    #------------------------------------------------------#
    #   主干特征提取网络特征通用，冻结训练可以加快训练速度
    #   也可以在训练初期防止权值被破坏。
    #   Init_Epoch为起始世代
    #   Freeze_Epoch为冻结训练的世代
    #   Epoch总训练世代
    #   提示OOM或者显存不足请调小Batch_size
    #------------------------------------------------------#
    if True:
        batch_size  = Freeze_batch_size
        lr          = Freeze_lr
        start_epoch = Init_Epoch
        end_epoch   = Freeze_Epoch
                        
        epoch_step      = num_train // batch_size
        epoch_step_val  = num_val // batch_size
        
        if epoch_step == 0 or epoch_step_val == 0:
            raise ValueError("数据集过小，无法进行训练，请扩充数据集。")
        
        optimizer       = optim.Adam(model_train.parameters(), lr, weight_decay = 5e-4)
        lr_scheduler    = optim.lr_scheduler.StepLR(optimizer, step_size = 1, gamma = 0.96)

        train_dataset   = FRCNNDataset(train_lines, input_shape, train = True)
        val_dataset     = FRCNNDataset(val_lines, input_shape, train = False)
        gen             = DataLoader(train_dataset, shuffle = True, batch_size = batch_size, num_workers = num_workers, pin_memory=True,
                                    drop_last=True, collate_fn=frcnn_dataset_collate)
        gen_val         = DataLoader(val_dataset  , shuffle = True, batch_size = batch_size, num_workers = num_workers, pin_memory=True, 
                                    drop_last=True, collate_fn=frcnn_dataset_collate)

        #------------------------------------#
        #   冻结一定部分训练
        #------------------------------------#
        if Freeze_Train:
            for param in model.extractor.parameters():
                param.requires_grad = False

        # ------------------------------------#
        #   冻结bn层
        # ------------------------------------#
        model.freeze_bn()

        train_util      = FasterRCNNTrainer(model, optimizer)

        for epoch in range(start_epoch, end_epoch):
            fit_one_epoch(model, train_util, loss_history, optimizer, epoch, epoch_step, epoch_step_val, gen, gen_val, end_epoch, Cuda)
            lr_scheduler.step()

    if True:
        batch_size  = Unfreeze_batch_size
        lr          = Unfreeze_lr
        start_epoch = Freeze_Epoch
        end_epoch   = UnFreeze_Epoch

        epoch_step      = num_train // batch_size
        epoch_step_val  = num_val // batch_size
        
        if epoch_step == 0 or epoch_step_val == 0:
            raise ValueError("数据集过小，无法进行训练，请扩充数据集。")

        optimizer       = optim.Adam(model_train.parameters(), lr, weight_decay = 5e-4)
        lr_scheduler    = optim.lr_scheduler.StepLR(optimizer, step_size=1, gamma = 0.96)

        train_dataset   = FRCNNDataset(train_lines, input_shape, train = True)
        val_dataset     = FRCNNDataset(val_lines, input_shape, train = False)
        gen             = DataLoader(train_dataset, shuffle = True, batch_size = batch_size, num_workers = num_workers, pin_memory=True,
                                    drop_last=True, collate_fn=frcnn_dataset_collate)
        gen_val         = DataLoader(val_dataset  , shuffle = True, batch_size = batch_size, num_workers = num_workers, pin_memory=True, 
                                    drop_last=True, collate_fn=frcnn_dataset_collate)

        #------------------------------------#
        #   冻结一定部分训练
        #------------------------------------#
        if Freeze_Train:
            for param in model.extractor.parameters():
                param.requires_grad = True

        # ------------------------------------#
        #   冻结bn层
        # ------------------------------------#
        model.freeze_bn()

        train_util      = FasterRCNNTrainer(model, optimizer)

        for epoch in range(start_epoch, end_epoch):
            fit_one_epoch(model, train_util, loss_history, optimizer, epoch, epoch_step, epoch_step_val, gen, gen_val, end_epoch, Cuda)
            lr_scheduler.step()

运行结果及报错内容

python train.py
段错误 (核心已转储)

我的解答思路和尝试过的方法

我想要达到的结果

跑通代码

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱晚乏客游 2022-04-15 15:30
关注
错误请截取完整错误信息，就一个段错误，谁知道你是哪里的段错误

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【段错误（核心已转储）——运行PV-RCNN代码 python demo.py】
2022-03-06 22:42

fyc300的博客 段错误（核心已转储）——运行PV-RCNN代码 python demo.py：提示：这里简述项目相关背景：例如：项目场景：示例:通过蓝牙芯片(HC-05)与手机 APP 通信，每隔 5s 传输一批传感器数据(不是很大) 问题描述：提示：...
视觉SLAM十四讲ch7 orb_self.cpp报错 段错误 (核心已转储)
2023-01-14 01:14

学术沉淀仔的博客视觉SLAM十四讲ch7 orb_self.cpp报错 段错误 (核心已转储)
Using backend: pytorch 段错误 (核心已转储)
2025-04-24 16:19

weixin_58668984的博客根据报错的内容进行修改，在个人用户目录下的~/.dgl/config.json文件中进行修改，将后端默认设置为pytorch.问题分析：pytorch支持的后端有问题，后将pytorch后端设置导入环境变量（忘记当时的命令），但是换是报这个...
Python3.7通过dmPython连接达梦数据库，报错“段错误，核心已转储”
2023-09-25 10:55

羊肉串儿加点辣的博客 Python3.7通过dmPython连接达梦8数据库时候的报错，“段错误，核心已转储”
段错误核心已经转储
2025-05-07 14:43

科学的发展-只不过是读大自然写的代码的博客 段错误核心已经转储
【Linux】段错误（核心已转储）（core dumped）问题的分析方法
2024-06-13 15:08

程序员洲洲的博客【Linux】段错误（核心已转储）（core dumped）问题的分析方法
PyTorch长时间训练段错误（核心已转储）解决方案：
2025-09-28 22:50

Albert_Kris的博客在训练Diffusion模型时遇到随机段错误问题，经排查发现是CUDA异步执行机制导致的。PyTorch默认异步调度会延迟暴露GPU计算错误，当后续CPU-GPU同步操作时集中爆发。解决方案是在关键数据传输前插入torch.cuda....
关于报错：段错误（核心已转储）
2022-04-09 21:44

guguu1的博客问题：在复现项目PaDiM时出现：系统：ubuntu 尝试解决办法1：增大栈空间在终端输入ulimit -a查看发当前栈空间大小进行修改：ulimit -s 102400 参考链接未解决尝试解决办法2：修改线程以及内存占用 ...
对报错：段错误 (核心已转储）的理解
2022-07-24 02:42

Wanderer_Yang.的博客对报错：段错误 (核心已转储）的理解
jetson tx2 部署yolov5环境运行detect.py遇到非法指令（核心已转储）问题
2022-08-26 11:22

呆神plus的博客 核心已转储问题所在在jetson tx2部署yolo环境中，安装各种包的情况下，会遇到各种包不兼容问题，比如numpy 如何解决在创建的虚拟环境中，输入 export OPENBLAS_CORETYPE=ARMV8 即可解决
Ubuntu20.04出现段错误核心已转储问题解决方案
2022-04-01 17:33

菊花古剑_的博客 ubuntu 20.04出现段错误核心已转储，使用GDB测试找不到core文件解决方案
关于在ubuntu18.04中运行ORB_SLAM3时遇到的报错：段错误（核心已转储）的解决方法（踩坑记录）
2024-05-12 10:30

啥也不会的研究僧的博客关于在ubuntu18.04中运行ORB_SLAM3时遇到的报错：段错误（核心已转储）的解决方法（踩坑记录），本教程记录运行ORB_SLAM时所遇到的所有段错误（核心已转储）的问题和解决的方法
二.ORB-YGZ-SLAM跑RGB-D的TUM数据集，报错：段错误（核心已转储）
2025-06-05 11:03

朱朱想毕业的博客在ubuntu20.04上跑ORB-YGZ-SLAM的RGB-D模式，ORB-YGZ-SLAM瞬间崩溃，并且报错：段错误（核心已转储）（2）ORB-YGZ-SLAM/Thirdparty/g2o/CMakeLists.txt文件中删除：-march=native。（1） ORB-YGZ-SLAM/CMakeLists....
安装cuda10.2，“s段错误 (核心已转储)“错误解决的方法
2024-07-28 18:57

渊湛溪的博客 s段错误 (核心已转储)错误解决 ubuntu20.04终端用指令： wget https://developer.download.nvidia.com/compute/cuda/10.2/Prod/local_installers/cuda_10.2.89_440.33.01_linux.run 下载cuda10.2.sh时，出现下载至...
段错误 (核心已转储)
2025-02-17 18:21

风中的默默的博客 *问题原因：**没有对 Addressbooks 结构体中的 m_Size 成员进行初始化。由于未初始化，m_Size 的值是一个随机的垃圾值，当使用这个随机值作为数组索引时，就可能会访问到未分配的内存区域，从而导致段错误。
设置数据，再次读取数据出现：段错误 (核心已转储)解決方案
2024-12-10 17:27

Narnat的博客通过putleu32(buf, MSG_INDEX, data_number);利用socket将数据传输给服务端，服务端接收数据后更新自己的数据。
运行一段时间后会报段错误 (核心已转储)
2023-06-27 10:21

发狂的小花的博客运行一段时间后会报段错误 (核心已转储)
python 段错误_段错误 核心已转储尝试解决
2020-12-24 14:17

Verllion的博客 1.在进行gdb pythonr XX.pywhere调试时，报出以下错误：1)每次运行都开38个线程，是否是线程超载[New Thread 0x7ffff2fd2700 (LWP 7415)][New Thread0x7ffff27d1700 (LWP 7416)][New Thread0x7fffeffd0700 (LWP 7417...
段错误（核心已转储）问题的分析方法
2021-03-08 16:23

jinron10的博客后，通过gcc –o typedef test_typdef.c命令编译成typedef可执行文件后执行，出现段错误：之前也遇见过“段错误（核心已转储）”（Segmentation fault(core dumped)），但是没有进行分析，今天借着这个机会学习一下...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月15日

关于fasterrcnn的train.py报错“段错误，核心已转储”

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

1条回答默认最新