train.py: error怎么解决

# ------------------------------------------------------------------------------
# Copyright (c) Microsoft
# Licensed under the MIT License.
# Written by Bin Xiao (Bin.Xiao@microsoft.com)
# ------------------------------------------------------------------------------

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import argparse
import os
import pprint
import shutil

import torch
import torch.nn.parallel
import torch.backends.cudnn as cudnn
import torch.optim
import torch.utils.data
import torch.utils.data.distributed
import torchvision.transforms as transforms
from tensorboardX import SummaryWriter

import _init_paths
from config import cfg
from config import update_config
from core.loss import JointsMSELoss
from core.function import train
from core.function import validate
from utils.utils import get_optimizer
from utils.utils import save_checkpoint
from utils.utils import create_logger
from utils.utils import get_model_summary

import dataset
import models


def parse_args():
    parser = argparse.ArgumentParser(description='Train keypoints network')
    # general
    parser.add_argument('--cfg',
                        help='experiment configure file name',
                        required=True,
                        type=str)

    parser.add_argument('opts',
                        help="Modify config options using the command-line",
                        default=None,
                        nargs=argparse.REMAINDER)

    # philly
    parser.add_argument('--modelDir',
                        help='model directory',
                        type=str,
                        default='')
    parser.add_argument('--logDir',
                        help='log directory',
                        type=str,
                        default='')
    parser.add_argument('--dataDir',
                        help='data directory',
                        type=str,
                        default='')
    parser.add_argument('--prevModelDir',
                        help='prev Model directory',
                        type=str,
                        default='')

    args = parser.parse_args()

    return args


def main():
    args = parse_args()
    update_config(cfg, args)

    logger, final_output_dir, tb_log_dir = create_logger(
        cfg, args.cfg, 'train')

    logger.info(pprint.pformat(args))
    logger.info(cfg)

    # cudnn related setting
    cudnn.benchmark = cfg.CUDNN.BENCHMARK
    torch.backends.cudnn.deterministic = cfg.CUDNN.DETERMINISTIC
    torch.backends.cudnn.enabled = cfg.CUDNN.ENABLED

    model = eval('models.'+cfg.MODEL.NAME+'.get_pose_net')(
        cfg, is_train=True
    ).cuda()

    # copy model file
    this_dir = os.path.dirname(__file__)
    shutil.copy2(
        os.path.join(this_dir, '../lib/models', cfg.MODEL.NAME + '.py'),
        final_output_dir)
    # logger.info(pprint.pformat(model))

    writer_dict = {
        'writer': SummaryWriter(log_dir=tb_log_dir),
        'train_global_steps': 0,
        'valid_global_steps': 0,
    }

    dump_input = torch.rand(
        (1, 3, cfg.MODEL.IMAGE_SIZE[1], cfg.MODEL.IMAGE_SIZE[0])
    ).cuda()
    #writer_dict['writer'].add_graph(model, (dump_input, ))

    logger.info(get_model_summary(model, dump_input))

   # model = torch.nn.DataParallel(model, device_ids=cfg.GPUS).cuda()

    # define loss function (criterion) and optimizer
    criterion = JointsMSELoss(
        use_target_weight=cfg.LOSS.USE_TARGET_WEIGHT
    ).cuda()

    # Data loading code
    normalize = transforms.Normalize(
        mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]
    )
    train_dataset = eval('dataset.'+cfg.DATASET.DATASET)(
        cfg, cfg.DATASET.ROOT, cfg.DATASET.TRAIN_SET, True,
        transforms.Compose([
            transforms.ToTensor(),
            normalize,
        ])
    )
    valid_dataset = eval('dataset.'+cfg.DATASET.DATASET)(
        cfg, cfg.DATASET.ROOT, cfg.DATASET.TEST_SET, False,
        transforms.Compose([
            transforms.ToTensor(),
            normalize,
        ])
    )

    train_loader = torch.utils.data.DataLoader(
        train_dataset,
        batch_size=cfg.TRAIN.BATCH_SIZE_PER_GPU*len(cfg.GPUS),
        shuffle=cfg.TRAIN.SHUFFLE,
        num_workers=cfg.WORKERS,
        pin_memory=cfg.PIN_MEMORY
    )
    valid_loader = torch.utils.data.DataLoader(
        valid_dataset,
        batch_size=cfg.TEST.BATCH_SIZE_PER_GPU*len(cfg.GPUS),
        shuffle=False,
        num_workers=cfg.WORKERS,
        pin_memory=cfg.PIN_MEMORY
    )

    best_perf = 0.0
    best_model = False
    last_epoch = -1
    optimizer = get_optimizer(cfg, model)
    begin_epoch = cfg.TRAIN.BEGIN_EPOCH
    checkpoint_file = os.path.join(
        final_output_dir, 'checkpoint.pth'
    )

    if cfg.AUTO_RESUME and os.path.exists(checkpoint_file):
        logger.info("=> loading checkpoint '{}'".format(checkpoint_file))
        checkpoint = torch.load(checkpoint_file)
        begin_epoch = checkpoint['epoch']
        best_perf = checkpoint['perf']
        last_epoch = checkpoint['epoch']
        model.load_state_dict(checkpoint['state_dict'])

        optimizer.load_state_dict(checkpoint['optimizer'])
        logger.info("=> loaded checkpoint '{}' (epoch {})".format(
            checkpoint_file, checkpoint['epoch']))

    lr_scheduler = torch.optim.lr_scheduler.MultiStepLR(
        optimizer, cfg.TRAIN.LR_STEP, cfg.TRAIN.LR_FACTOR,
        last_epoch=last_epoch
    )

    for epoch in range(begin_epoch, cfg.TRAIN.END_EPOCH):
        lr_scheduler.step()

        # train for one epoch
        train(cfg, train_loader, model, criterion, optimizer, epoch,
              final_output_dir, tb_log_dir, writer_dict)


        # evaluate on validation set
        perf_indicator = validate(
            cfg, valid_loader, valid_dataset, model, criterion,
            final_output_dir, tb_log_dir, writer_dict
        )

        if perf_indicator >= best_perf:
            best_perf = perf_indicator
            best_model = True
        else:
            best_model = False

        logger.info('=> saving checkpoint to {}'.format(final_output_dir))
        save_checkpoint({
            'epoch': epoch + 1,
            'model': cfg.MODEL.NAME,
            'state_dict': model.state_dict(),
            'best_state_dict': model.module.state_dict(),
            'perf': perf_indicator,
            'optimizer': optimizer.state_dict(),
        }, best_model, final_output_dir)

    final_model_state_file = os.path.join(
        final_output_dir, 'final_state.pth'
    )
    logger.info('=> saving final model state to {}'.format(
        final_model_state_file)
    )
    torch.save(model.module.state_dict(), final_model_state_file)
    writer_dict['writer'].close()


if __name__ == '__main__':
    main()

运行HRNet会报错train.py: error: the following arguments are required: --cfg

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Alexxinlu 2021-06-04 21:16
关注
配置文件路径的参数没传，运行时输入一下命令：

python train.py --cfg '配置文件的路径名'

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 2

无用 2
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

解决报错:train.py: error: unrecognized arguments: --local-rank=1 ERROR:torch.distributed.elastic.multipr
2023-04-20 21:41

WTIAW.TIAW的博客由上图可以看出是–local_rank 与 --local-rank不一致导致的，追究原因，竟然是torch2.0版本launch.py里面写的全是–local-rank，而本yolov7源码用的是–local_rank。更换torch版本，我把torch版本换成1.13就好了。
运行pytorch-CycleGAN-and-pix2pix报错train.py: error: unrecognized arguments: python train.py
2024-08-21 20:43

努力学习的小码猴的博客下载完项目之后只需要将数据集下载到datasets里面，然后根据readme里面的提示，在命令框或者终端输入python train.py --dataroot ./datasets/maps --name maps_cyclegan --model cycle_gan。估计是cudnn内存不够，...
复现swimunet报错train.py: error: the following arguments are required: --cfg
2023-09-15 10:54

莫老大的博客 #config这里加了default，不然根本没办法运行。其实就是原来的文件没有定义config路径,加上就行了。找到train.py文件中的。
mmaction2报错解决方案train.py: error: the following arguments are required: config
2023-11-03 11:25

反目的信徒的博客这是因为没有配置默认参数，修改train.py代码如下，文件路径名需要用自己的。train.py，debug会出现。
【问题记录】usage: nn_train.py [-h] -d DATASET -m MODEL -l LABEL_BIN -p PLOT nn_train.py: error: the follo
2022-11-09 09:14

追光者♂的博客【问题记录】usage: nn_train.py [-h] -d DATASET -m MODEL -l LABEL_BIN -p PLOT nn_train.py: error: the follo | 人工智能 面试题：解释一下反向传播算法（Backpropagation）的原理。
python 参数设置argparse.argumentParser+报错train.py: error: the following arguments are required: --XXXX
2021-12-05 13:56

FakeOccupational的博客部分1：报错解决方案一：可能缺少参数，二：属性问题(设置了default还设置了required)：按照以下方法更改属性： parser.add_argument('--model', default='ResNet18',required=True) args = parser.parse_args() ...
mmdetection / mmrotate /mmlab测试模型FPS报错 benchmark.py: error: unrecognized arguments: --checkpoints
2025-01-19 21:36

Goafan的博客【代码】mmdetection/mmrotate/mmlab测试模型FPS报错benchmark.py:error:unrecognizedarguments:--checkpoints。
createTrainingData.py: error: the following arguments are required: positiveImages,XXX...详细报错解决方法
2022-08-25 13:47

落花雨12138的博客从网上找到一个开源代码，运行createTrainingData.py时，报如下错误： usage: createTrainingData.py ...createTrainingData.py: error: the following arguments are required: positiveImages,negativeImages, train
解决yolov5模型转换利用export.py文件导出onnx文件报错：export.py: error: unrecognized arguments: --include onnx
2023-11-21 13:26

筱戥芊茹的博客在利用yolov5中的models/export.py文件转换训练好的模型best.pt时，遇到了报错：export.py: error: unrecognized arguments: --include onnx。发现报错export.py: error: unrecognized arguments: --include onnx，...
【deepspeed】 gpt模型训练报错run_clm_no_trainer.py: error: unrecognized arguments: --local-rank=0
2023-09-13 17:04

qq_29707567的博客测试场景：使用deepspeed框架训练gpt模型问题：报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError 具体见截图：解决办法：含义：表明在运行 train.py 脚本时，传递了一个未被识别的参数 -...
【报错解决】main.py: error: the following arguments are required: --data_dir, --save_dir
2024-03-15 15:44

小白冲鸭的博客 Traceback (most recent call last): File "C:/Users/xxx/PycharmProjects/QDGAT-master/qdgat/main.py", line 280, in main() File "C:/Users/xxx/PycharmProjects/QDGAT-master/qdgat/main.py", line 252, in main...
mxnet使用im2rec.py生成lst文件提示im2rec.py: error: unrecognized arguments:
2020-12-11 21:24

跳水冠军老舍的博客根据官方文档，如果需要迭代自己的数据集，则需要先根据自己的图片数据生成lst文件和rec文件，在第一步中就遇到了坑，使用im2rec.py文件生成lst文件时，总是提示error: unrecognized arguments。后来查了很多资料，...
lmdb.Error: 解决方法
2024-06-22 13:49

AI算法网奇的博客 lmdb.Error: 解决方法
safetensors_rust.SafetensorError: Error while deserializing header: HeaderTooLarge
2024-07-14 10:15

Muti-Agent的博客在网上找了很久也没有解决，最后看到有人说是模型文件的问题（我是从魔搭社区下载的别人上传的），重新从 Hugging face 下载了模型文件，问题便解决了。
【ChatGLM2-6B微调】bash train.sh 报错train.sh: line 4: $‘\r‘: command not found master_addr is only used f
2023-11-13 15:42

老司机张师傅的博客 1. 错误状态在Linux系统中，运行Shell脚本，出现了$‘\r’: command not found错误 train.sh: line 4: $'\r': command not found master_addr is only used for static rdzv_backend and when rdzv_endpoint is not...
PaddleOCR训练排错：can‘t open file ‘tools/train.py‘: [Errno 2] No such file or directory
2024-05-28 10:45

Hinggu的博客分析：...\Lib\site-packages\PPOCRLabel\tools下没有train.py代码文件。
执行YOLOv7中的train.py时报错：RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR
2023-03-14 15:08

小金光学CV的博客【代码】执行YOLOv7中的train.py时报错：RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月20日

train.py: error怎么解决

1条回答 默认 最新

问题事件

1条回答默认最新