train.py: error怎么解决

# ------------------------------------------------------------------------------
# Copyright (c) Microsoft
# Licensed under the MIT License.
# Written by Bin Xiao (Bin.Xiao@microsoft.com)
# ------------------------------------------------------------------------------

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import argparse
import os
import pprint
import shutil

import torch
import torch.nn.parallel
import torch.backends.cudnn as cudnn
import torch.optim
import torch.utils.data
import torch.utils.data.distributed
import torchvision.transforms as transforms
from tensorboardX import SummaryWriter

import _init_paths
from config import cfg
from config import update_config
from core.loss import JointsMSELoss
from core.function import train
from core.function import validate
from utils.utils import get_optimizer
from utils.utils import save_checkpoint
from utils.utils import create_logger
from utils.utils import get_model_summary

import dataset
import models


def parse_args():
    parser = argparse.ArgumentParser(description='Train keypoints network')
    # general
    parser.add_argument('--cfg',
                        help='experiment configure file name',
                        required=True,
                        type=str)

    parser.add_argument('opts',
                        help="Modify config options using the command-line",
                        default=None,
                        nargs=argparse.REMAINDER)

    # philly
    parser.add_argument('--modelDir',
                        help='model directory',
                        type=str,
                        default='')
    parser.add_argument('--logDir',
                        help='log directory',
                        type=str,
                        default='')
    parser.add_argument('--dataDir',
                        help='data directory',
                        type=str,
                        default='')
    parser.add_argument('--prevModelDir',
                        help='prev Model directory',
                        type=str,
                        default='')

    args = parser.parse_args()

    return args


def main():
    args = parse_args()
    update_config(cfg, args)

    logger, final_output_dir, tb_log_dir = create_logger(
        cfg, args.cfg, 'train')

    logger.info(pprint.pformat(args))
    logger.info(cfg)

    # cudnn related setting
    cudnn.benchmark = cfg.CUDNN.BENCHMARK
    torch.backends.cudnn.deterministic = cfg.CUDNN.DETERMINISTIC
    torch.backends.cudnn.enabled = cfg.CUDNN.ENABLED

    model = eval('models.'+cfg.MODEL.NAME+'.get_pose_net')(
        cfg, is_train=True
    ).cuda()

    # copy model file
    this_dir = os.path.dirname(__file__)
    shutil.copy2(
        os.path.join(this_dir, '../lib/models', cfg.MODEL.NAME + '.py'),
        final_output_dir)
    # logger.info(pprint.pformat(model))

    writer_dict = {
        'writer': SummaryWriter(log_dir=tb_log_dir),
        'train_global_steps': 0,
        'valid_global_steps': 0,
    }

    dump_input = torch.rand(
        (1, 3, cfg.MODEL.IMAGE_SIZE[1], cfg.MODEL.IMAGE_SIZE[0])
    ).cuda()
    #writer_dict['writer'].add_graph(model, (dump_input, ))

    logger.info(get_model_summary(model, dump_input))

   # model = torch.nn.DataParallel(model, device_ids=cfg.GPUS).cuda()

    # define loss function (criterion) and optimizer
    criterion = JointsMSELoss(
        use_target_weight=cfg.LOSS.USE_TARGET_WEIGHT
    ).cuda()

    # Data loading code
    normalize = transforms.Normalize(
        mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]
    )
    train_dataset = eval('dataset.'+cfg.DATASET.DATASET)(
        cfg, cfg.DATASET.ROOT, cfg.DATASET.TRAIN_SET, True,
        transforms.Compose([
            transforms.ToTensor(),
            normalize,
        ])
    )
    valid_dataset = eval('dataset.'+cfg.DATASET.DATASET)(
        cfg, cfg.DATASET.ROOT, cfg.DATASET.TEST_SET, False,
        transforms.Compose([
            transforms.ToTensor(),
            normalize,
        ])
    )

    train_loader = torch.utils.data.DataLoader(
        train_dataset,
        batch_size=cfg.TRAIN.BATCH_SIZE_PER_GPU*len(cfg.GPUS),
        shuffle=cfg.TRAIN.SHUFFLE,
        num_workers=cfg.WORKERS,
        pin_memory=cfg.PIN_MEMORY
    )
    valid_loader = torch.utils.data.DataLoader(
        valid_dataset,
        batch_size=cfg.TEST.BATCH_SIZE_PER_GPU*len(cfg.GPUS),
        shuffle=False,
        num_workers=cfg.WORKERS,
        pin_memory=cfg.PIN_MEMORY
    )

    best_perf = 0.0
    best_model = False
    last_epoch = -1
    optimizer = get_optimizer(cfg, model)
    begin_epoch = cfg.TRAIN.BEGIN_EPOCH
    checkpoint_file = os.path.join(
        final_output_dir, 'checkpoint.pth'
    )

    if cfg.AUTO_RESUME and os.path.exists(checkpoint_file):
        logger.info("=> loading checkpoint '{}'".format(checkpoint_file))
        checkpoint = torch.load(checkpoint_file)
        begin_epoch = checkpoint['epoch']
        best_perf = checkpoint['perf']
        last_epoch = checkpoint['epoch']
        model.load_state_dict(checkpoint['state_dict'])

        optimizer.load_state_dict(checkpoint['optimizer'])
        logger.info("=> loaded checkpoint '{}' (epoch {})".format(
            checkpoint_file, checkpoint['epoch']))

    lr_scheduler = torch.optim.lr_scheduler.MultiStepLR(
        optimizer, cfg.TRAIN.LR_STEP, cfg.TRAIN.LR_FACTOR,
        last_epoch=last_epoch
    )

    for epoch in range(begin_epoch, cfg.TRAIN.END_EPOCH):
        lr_scheduler.step()

        # train for one epoch
        train(cfg, train_loader, model, criterion, optimizer, epoch,
              final_output_dir, tb_log_dir, writer_dict)


        # evaluate on validation set
        perf_indicator = validate(
            cfg, valid_loader, valid_dataset, model, criterion,
            final_output_dir, tb_log_dir, writer_dict
        )

        if perf_indicator >= best_perf:
            best_perf = perf_indicator
            best_model = True
        else:
            best_model = False

        logger.info('=> saving checkpoint to {}'.format(final_output_dir))
        save_checkpoint({
            'epoch': epoch + 1,
            'model': cfg.MODEL.NAME,
            'state_dict': model.state_dict(),
            'best_state_dict': model.module.state_dict(),
            'perf': perf_indicator,
            'optimizer': optimizer.state_dict(),
        }, best_model, final_output_dir)

    final_model_state_file = os.path.join(
        final_output_dir, 'final_state.pth'
    )
    logger.info('=> saving final model state to {}'.format(
        final_model_state_file)
    )
    torch.save(model.module.state_dict(), final_model_state_file)
    writer_dict['writer'].close()


if __name__ == '__main__':
    main()

运行HRNet会报错train.py: error: the following arguments are required: --cfg

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Alexxinlu 2021-06-04 21:16
关注
配置文件路径的参数没传，运行时输入一下命令：

python train.py --cfg '配置文件的路径名'

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2

无用 2
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

yolov5在跑train.py遇到的问题 python 深度学习目标检测
2022-05-08 16:54

回答 2 已采纳路径不对呗，你这么放置数据集的话，应该是: train: coco128/coco128/images/train1207 val: coco128/coco128/images/val1207
facenet中的train_tripletloss.py报错 python 人工智能
2022-06-07 10:28

回答 1 已采纳 embeddings为4096，后面的为3Xargs.embedding_size=384？4096无法整除以384，所以是无法reshape的，所以你应该是改了什么参数了，改回去看看
pytorch point源代码出现KeyError: Caught KeyError in DataLoader worker process 0.如何解决？人工智能机器学习深度学习
2020-06-29 14:45

回答 2 已采纳 https://blog.csdn.net/qinglingLS/article/details/104411589
解决报错:train.py: error: unrecognized arguments: --local-rank=1 ERROR:torch.distributed.elastic.multipr
2023-04-20 21:41

WTIAW.TIAW的博客由上图可以看出是–local_rank 与 --local-rank不一致导致的，追究原因，竟然是torch2.0版本launch.py里面写的全是–local-rank，而本yolov7源码用的是–local_rank。更换torch版本，我把torch版本换成1.13就好了。
YOLOv5(PyTorch)实战：训练自己的数据集课程中遇到的问题 pytorch
2022-04-05 21:57

回答 1 已采纳 in "models/yolov5s_ball.yaml", line 5, column 1检查以下这个文件，这里出现的错误
yolov5 5.0训练时发生错误，如何解决？KeyError: 'names' python 神经网络
2022-07-23 21:53

回答 3 已采纳已经解决了，是yolo没找到训练的yaml文件改下路径就好了
用tensorflow做训练os.environ['CUDA_VISIBLE_DEVICES'] = '/gpu:0' 无法调用gpu执行 tensorflow 人工智能深度学习
2021-09-05 22:51

回答 1 已采纳 os.environ['CUDA_VISIBLE_DEVICES'] = '0' 你就一张显卡，那肯定是写个0就可以了啊，也就是默认编号为0的显卡，你指定1，2，3的话你本身又没有多显卡，那只能
复现swimunet报错train.py: error: the following arguments are required: --cfg
2023-09-15 10:54

莫老大的博客 #config这里加了default，不然根本没办法运行。其实就是原来的文件没有定义config路径,加上就行了。找到train.py文件中的。
chatterbot训练报错 python 人工智能开发语言
2022-08-20 12:08

回答 2 已采纳 trainer = ChatterBotCorpusTrainer（bot）trainer.train（“chatterbot.corpus.english”）替换为以下行：bot.set_train
tensorflow训练网络报错Invalid argument tensorflow 人工智能机器学习深度学习神经网络
2019-09-06 17:29

回答 1 已采纳 print(sess.run(cost),feed_dict=feeds_train) 你把数据喂到了外边在cost后加逗号，然后接喂的数据
训练yolov7遇上的问题 pycharm python 有问必答目标检测
2022-10-08 17:06

回答 2 已采纳 Exception: train: Error loading data from ./coco/train2017.txt: train: coco\train2017.txt does not e
mmaction2报错解决方案train.py: error: the following arguments are required: config
2023-11-03 11:25

反目的信徒的博客这是因为没有配置默认参数，修改train.py代码如下，文件路径名需要用自己的。train.py，debug会出现。
pytorch提高正确率，反向传播不会写 python pytorch 人工智能
2022-08-03 09:05

回答 3 已采纳反向传播那部分的代码修改如下： loss.backward(retain_graph=True) optimizer.step() optimizer.zero_grad() loss.backwar
【问题记录】usage: nn_train.py [-h] -d DATASET -m MODEL -l LABEL_BIN -p PLOT nn_train.py: error: the follo
2022-11-09 09:14

追光者♂的博客【问题记录】usage: nn_train.py [-h] -d DATASET -m MODEL -l LABEL_BIN -p PLOT nn_train.py: error: the follo | 人工智能 面试题：解释一下反向传播算法（Backpropagation）的原理。
python 参数设置argparse.argumentParser+报错train.py: error: the following arguments are required: --XXXX
2021-12-05 13:56

FakeOccupational的博客部分1：报错解决方案一：可能缺少参数，二：属性问题(设置了default还设置了required)：按照以下方法更改属性： parser.add_argument('--model', default='ResNet18',required=True) args = parser.parse_args() ...
createTrainingData.py: error: the following arguments are required: positiveImages,XXX...详细报错解决方法
2022-08-25 13:47

落花雨12138的博客从网上找到一个开源代码，运行createTrainingData.py时，报如下错误： usage: createTrainingData.py ...createTrainingData.py: error: the following arguments are required: positiveImages,negativeImages, train
解决yolov5模型转换利用export.py文件导出onnx文件报错：export.py: error: unrecognized arguments: --include onnx
2023-11-21 13:26

筱戥芊茹的博客在利用yolov5中的models/export.py文件转换训练好的模型best.pt时，遇到了报错：export.py: error: unrecognized arguments: --include onnx。发现报错export.py: error: unrecognized arguments: --include onnx，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月20日

悬赏问题

¥15 linux驱动，linux应用，多线程
¥20 我要一个分身加定位两个功能的安卓app
¥15 基于FOC驱动器，如何实现卡丁车下坡无阻力的遛坡的效果
¥15 IAR程序莫名变量多重定义
¥15 (标签-UDP|关键词-client)
¥15 关于库卡officelite无法与虚拟机通讯的问题
¥15 目标检测项目无法读取视频
¥15 GEO datasets中基因芯片数据仅仅提供了normalized signal如何进行差异分析
¥100 求采集电商背景音乐的方法
¥15 数学建模竞赛求指导帮助

train.py: error怎么解决

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新