关于#Pytorch#的问题，如何解决？

问题遇到的现象和发生背景

Pytorch模型训练CUDA一直报错

问题相关代码，请勿粘贴截图

from __future__ import division
from models import *
from utils.logger import *
from utils.utils import *
from utils.datasets import *
from utils.parse_config import *
from test import evaluate
import os

os.environ['CUDA_LAUNCH_BLOCKING'] = '1'

import warnings
warnings.filterwarnings("ignore")

from terminaltables import AsciiTable

import os
import sys
import time
import datetime
import argparse
import torch
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision import transforms
from torch.autograd import Variable
import torch.optim as optim

"""
--data_config config/coco.data  
--pretrained_weights weights/darknet53.conv.74
"""

if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--epochs", type=int, default=100, help="number of epochs")
    parser.add_argument("--batch_size", type=int, default=1, help="size of each image batch")
    parser.add_argument("--gradient_accumulations", type=int, default=2, help="number of gradient accums before step")
    parser.add_argument("--model_def", type=str, default="config/yolov3.cfg", help="path to model definition file")
    parser.add_argument("--data_config", type=str, default="config/coco.data", help="path to data config file")
    parser.add_argument("--pretrained_weights", type=str, help="if specified starts from checkpoint model")
    parser.add_argument("--n_cpu", type=int, default=0, help="number of cpu threads to use during batch generation")
    parser.add_argument("--img_size", type=int, default=416, help="size of each image dimension")
    parser.add_argument("--checkpoint_interval", type=int, default=100, help="interval between saving model weights")
    parser.add_argument("--evaluation_interval", type=int, default=300, help="interval evaluations on validation set")
    parser.add_argument("--compute_map", default=False, help="if True computes mAP every tenth batch")
    parser.add_argument("--multiscale_training", default=True, help="allow for multi-scale training")
    opt = parser.parse_args()
    print(opt)

    logger = Logger("logs")

    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    os.makedirs("output", exist_ok=True)
    os.makedirs("checkpoints", exist_ok=True)

    # Get data configuration
    data_config = parse_data_config(opt.data_config)
    train_path = data_config["train"]
    valid_path = data_config["valid"]
    class_names = load_classes(data_config["names"])

    # Initiate model
    model = Darknet(opt.model_def).to(device)
    model.apply(weights_init_normal)

    # If specified we start from checkpoint
    if opt.pretrained_weights:
        if opt.pretrained_weights.endswith(".pth"):
            model.load_state_dict(torch.load(opt.pretrained_weights))
        else:
            model.load_darknet_weights(opt.pretrained_weights)

    # Get dataloader
    dataset = ListDataset(train_path, augment=True, multiscale=opt.multiscale_training)
    dataloader = torch.utils.data.DataLoader(
        dataset,
        batch_size=opt.batch_size,
        shuffle=True,
        num_workers=opt.n_cpu,
        pin_memory=True,
        collate_fn=dataset.collate_fn,
    )

    optimizer = torch.optim.Adam(model.parameters())

    metrics = [
        "grid_size",
        "loss",
        "x",
        "y",
        "w",
        "h",
        "conf",
        "cls",
        "cls_acc",
        "recall50",
        "recall75",
        "precision",
        "conf_obj",
        "conf_noobj",
    ]

    for epoch in range(opt.epochs):
        model.train()
        start_time = time.time()
        for batch_i, (_, imgs, targets) in enumerate(dataloader):
            batches_done = len(dataloader) * epoch + batch_i

            imgs = Variable(imgs.to(device))
            targets = Variable(targets.to(device), requires_grad=False)
            print ('imgs',imgs.shape)
            print ('targets',targets.shape)
            loss, outputs = model(imgs, targets)
            loss.backward()

            if batches_done % opt.gradient_accumulations:
                # Accumulates gradient before each step
                optimizer.step()
                optimizer.zero_grad()

            # ----------------
            #   Log progress
            # ----------------

            log_str = "\n---- [Epoch %d/%d, Batch %d/%d] ----\n" % (epoch, opt.epochs, batch_i, len(dataloader))

            metric_table = [["Metrics", *[f"YOLO Layer {i}" for i in range(len(model.yolo_layers))]]]

            # Log metrics at each YOLO layer
            for i, metric in enumerate(metrics):
                formats = {m: "%.6f" for m in metrics}
                formats["grid_size"] = "%2d"
                formats["cls_acc"] = "%.2f%%"
                row_metrics = [formats[metric] % yolo.metrics.get(metric, 0) for yolo in model.yolo_layers]
                metric_table += [[metric, *row_metrics]]

                # Tensorboard logging
                tensorboard_log = []
                for j, yolo in enumerate(model.yolo_layers):
                    for name, metric in yolo.metrics.items():
                        if name != "grid_size":
                            tensorboard_log += [(f"{name}_{j+1}", metric)]
                tensorboard_log += [("loss", loss.item())]
                logger.list_of_scalars_summary(tensorboard_log, batches_done)

            log_str += AsciiTable(metric_table).table
            log_str += f"\nTotal loss {loss.item()}"

            # Determine approximate time left for epoch
            epoch_batches_left = len(dataloader) - (batch_i + 1)
            time_left = datetime.timedelta(seconds=epoch_batches_left * (time.time() - start_time) / (batch_i + 1))
            log_str += f"\n---- ETA {time_left}"

            print(log_str)

            model.seen += imgs.size(0)

        if epoch % opt.evaluation_interval == 0:
            print("\n---- Evaluating Model ----")
            # Evaluate the model on the validation set
            precision, recall, AP, f1, ap_class = evaluate(
                model,
                path=valid_path,
                iou_thres=0.5,
                conf_thres=0.5,
                nms_thres=0.5,
                img_size=opt.img_size,
                batch_size=1,
            )
            evaluation_metrics = [
                ("val_precision", precision.mean()),
                ("val_recall", recall.mean()),
                ("val_mAP", AP.mean()),self.outlayer
                ("val_f1", f1.mean()),
            ]
            logger.list_of_scalars_summary(evaluation_metrics, epoch)

            # Print class APs and mAP
            ap_table = [["Index", "Class name", "AP"]]
            for i, c in enumerate(ap_class):
                ap_table += [[c, class_names[c], "%.5f" % AP[i]]]
            print(AsciiTable(ap_table).table)
            print(f"---- mAP {AP.mean()}")

        if epoch % opt.checkpoint_interval == 0:
            torch.save(model.state_dict(), f"checkpoints/yolov3_ckpt_%d.pth" % epoch)

运行结果及报错内容

D:\pytorch\envs\tensorflow\python.exe D:/BaiduNetdiskDownload/yolo/main/PyTorch-YOLOv3/train.py --model_def config/yolov3-custom.cfg --data_config config/custom.data --pretrained_weights weights/darknet53.conv.74
2022-06-24 20:43:11.900568: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library cudart64_110.dll
Namespace(epochs=100, batch_size=1, gradient_accumulations=2, model_def='config/yolov3-custom.cfg', data_config='config/custom.data', pretrained_weights='weights/darknet53.conv.74', n_cpu=0, img_size=416, checkpoint_interval=100, evaluation_interval=300, compute_map=False, multiscale_training=True)
2022-06-24 20:43:14.321195: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library nvcuda.dll
2022-06-24 20:43:14.343865: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1733] Found device 0 with properties: 
pciBusID: 0000:01:00.0 name: NVIDIA GeForce RTX 3050 Ti Laptop GPU computeCapability: 8.6
coreClock: 1.485GHz coreCount: 20 deviceMemorySize: 4.00GiB deviceMemoryBandwidth: 178.84GiB/s
2022-06-24 20:43:14.344091: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library cudart64_110.dll
2022-06-24 20:43:14.344196: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library cublas64_11.dll
2022-06-24 20:43:14.344303: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library cublasLt64_11.dll
2022-06-24 20:43:14.344415: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library cufft64_10.dll
2022-06-24 20:43:14.345990: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library curand64_10.dll
2022-06-24 20:43:14.346434: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library cusolver64_11.dll
2022-06-24 20:43:14.346570: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library cusparse64_11.dll
2022-06-24 20:43:14.346696: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Successfully opened dynamic library cudnn64_8.dll
2022-06-24 20:43:14.346843: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1871] Adding visible gpu devices: 0
2022-06-24 20:43:14.347438: I tensorflow/core/platform/cpu_feature_guard.cc:142] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX AVX2
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2022-06-24 20:43:14.348414: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1733] Found device 0 with properties: 
pciBusID: 0000:01:00.0 name: NVIDIA GeForce RTX 3050 Ti Laptop GPU computeCapability: 8.6
coreClock: 1.485GHz coreCount: 20 deviceMemorySize: 4.00GiB deviceMemoryBandwidth: 178.84GiB/s
2022-06-24 20:43:14.348671: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1871] Adding visible gpu devices: 0
2022-06-24 20:43:14.718978: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1258] Device interconnect StreamExecutor with strength 1 edge matrix:
2022-06-24 20:43:14.719117: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1264]      0 
2022-06-24 20:43:14.719192: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1277] 0:   N 
2022-06-24 20:43:14.719421: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1418] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 1653 MB memory) -> physical GPU (device: 0, name: NVIDIA GeForce RTX 3050 Ti Laptop GPU, pci bus id: 0000:01:00.0, compute capability: 8.6)
imgs torch.Size([1, 3, 320, 320])
targets torch.Size([4, 6])
torch.Size([1, 66, 10, 10])
torch.Size([1, 3, 10, 10, 22])
torch.Size([3, 4])
torch.Size([1, 66, 20, 20])
torch.Size([1, 3, 20, 20, 22])
torch.Size([3, 4])
torch.Size([1, 66, 40, 40])
torch.Size([1, 3, 40, 40, 22])
torch.Size([3, 4])
2022-06-24 20:43:18.081589: I tensorflow/stream_executor/cuda/cuda_driver.cc:789] failed to allocate 1.61G (1734213632 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY: out of memory
2022-06-24 20:43:18.162417: I tensorflow/stream_executor/cuda/cuda_driver.cc:789] failed to allocate 1.45G (1560792320 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY: out of memory
2022-06-24 20:43:18.232255: I tensorflow/stream_executor/cuda/cuda_driver.cc:789] failed to allocate 1.31G (1404713216 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY: out of memory

---- [Epoch 0/100, Batch 0/724] ----
+------------+--------------+--------------+--------------+
| Metrics    | YOLO Layer 0 | YOLO Layer 1 | YOLO Layer 2 |
+------------+--------------+--------------+--------------+
| grid_size  | 10           | 20           | 40           |
| loss       | 81.651138    | 68.110428    | 73.541206    |
| x          | 0.116567     | 0.093047     | 0.134591     |
| y          | 0.229398     | 0.063502     | 0.076567     |
| w          | 0.794509     | 0.160264     | 1.223999     |
| h          | 0.408137     | 0.092530     | 2.021268     |
| conf       | 79.419899    | 66.988274    | 69.371574    |
| cls        | 0.682625     | 0.712811     | 0.713205     |
| cls_acc    | 25.00%       | 0.00%        | 0.00%        |
| recall50   | 0.000000     | 0.000000     | 0.000000     |
| recall75   | 0.000000     | 0.000000     | 0.000000     |
| precision  | 0.000000     | 0.000000     | 0.000000     |
| conf_obj   | 0.615010     | 0.567150     | 0.492626     |
| conf_noobj | 0.535675     | 0.477527     | 0.493937     |
+------------+--------------+--------------+--------------+
Total loss 223.30276489257812
---- ETA 0:31:38.819796
imgs torch.Size([1, 3, 320, 320])
targets torch.Size([1, 6])
torch.Size([1, 66, 10, 10])
torch.Size([1, 3, 10, 10, 22])
torch.Size([3, 1])
torch.Size([1, 66, 20, 20])
torch.Size([1, 3, 20, 20, 22])
torch.Size([3, 1])
Traceback (most recent call last):
  File "D:\BaiduNetdiskDownload\yolo\main\PyTorch-YOLOv3\train.py", line 115, in <module>
    loss, outputs = model(imgs, targets)
  File "D:\pytorch\envs\tensorflow\lib\site-packages\torch\nn\modules\module.py", line 1110, in _call_impl
    return forward_call(*input, **kwargs)
  File "D:\BaiduNetdiskDownload\yolo\main\PyTorch-YOLOv3\models.py", line 252, in forward
    x = module(x)
  File "D:\pytorch\envs\tensorflow\lib\site-packages\torch\nn\modules\module.py", line 1110, in _call_impl
    return forward_call(*input, **kwargs)
  File "D:\pytorch\envs\tensorflow\lib\site-packages\torch\nn\modules\container.py", line 141, in forward
    input = module(input)
  File "D:\pytorch\envs\tensorflow\lib\site-packages\torch\nn\modules\module.py", line 1110, in _call_impl
    return forward_call(*input, **kwargs)
  File "D:\pytorch\envs\tensorflow\lib\site-packages\torch\nn\modules\activation.py", line 758, in forward
    return F.leaky_relu(input, self.negative_slope, self.inplace)
  File "D:\pytorch\envs\tensorflow\lib\site-packages\torch\nn\functional.py", line 1618, in leaky_relu
    result = torch._C._nn.leaky_relu(input, negative_slope)
RuntimeError: CUDA out of memory. Tried to allocate 2.00 MiB (GPU 0; 4.00 GiB total capacity; 772.11 MiB already allocated; 0 bytes free; 840.00 MiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.  See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

进程已结束,退出代码1

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

关于#pytorch#的问题，如何解决？(语言-python) python pytorch 深度学习
2023-03-15 22:55

回答 2 已采纳说明你的numpy的切片索引没有写对。
关于#yolo#的问题，如何解决？ pycharm pytorch 人工智能有问必答
2023-03-06 16:26

回答 4 已采纳点击这个文件改成紫色的 https://blog.csdn.net/SSS__jq/article/details/123458804
关于#pytorch#的问题，请各位专家解答！ pytorch
2023-03-22 16:03

回答 1 已采纳基于Monster 组和GPT的调写：、可能是因为 Anaconda 配置的 channels（软件源）中包含了多个相同的源，需要将重复的源移动到顶部。另外，也有可能是由于网络连接问题导致的 HTTP
2022年了，PyTorch和TensorFlow选哪个？
2022-01-06 21:00

Datawhale的博客 Datawhale推荐作者：Ryan O'Connor，来源：机器之心坊间传闻：「TensorFlow 适合业界，PyTorch 适合学界」。都 2022 年了，还是这样吗？2022年...
pytorch数据集出现问题?? pytorch 人工智能
2021-07-16 17:15

回答 1 已采纳 [[1.0],[2.0],[3.0]],下面一样外面加层括号
关于#yolo#tensorboard的问题，如何解决？ pycharm python pytorch 有问必答
2023-03-13 20:26

回答 4 已采纳 yolov5是pytorch架构实现的，不是tensorflow架构,这个tensorbord不能用的吧。yolov5本身就能生成损失函数图像，也不需要tensorbord来查看最后一张图，表示训练已
关于#pytorch#的问题：pytorch1.3.0 + cuda101对应的Pyg库（torch-geometric及相应依赖）官网不在提供，请问还有什么途径可以下载安装吗(语言-python) python pytorch
2022-11-21 11:34

回答 1 已采纳最简单的方案是，根据现有的pyg库的需求配置环境，比如cuda要求什么给什么等。比如目前好像最低是torch1.4和cuda10.2.如果这个无法接受，那么只能从源码安装的方式来安装了，具体请看htt
为什么用PyTorch？PyTorch如何支持深度学习？
2022-03-06 09:59

人邮异步社区的博客为什么用PyTorch 通过将模型应用到例证，深度学习允许我们执行很多复杂任务，如机器翻译、玩战略游戏以及在杂乱无章的场景中识别物体等。为了在实践中做到这一点，我们需要灵活且高效的工具，以便能够适用于这些...
PyTorch 怎么修改默认device？ pytorch 深度学习神经网络
2022-04-26 09:27

回答 2 已采纳没有方法，只能 device = device = torch.device('cuda',0) # 在后续的 torch.Tensor 和 torch.nn.Module 后添加 to(devic
关于#pytorch#的问题：如果一个目标检测网络修改了models.py，而.cfg配置文件不改变，会对目标检测网络训练产生什么影响呢深度学习目标检测计算机视觉
2023-03-04 16:41

回答 1 已采纳 “Devil组”引证GPT后的撰写：如果只修改了 models.py 文件而没有修改 .cfg 配置文件，通常情况下不会对目标检测网络的训练产生影响，并且也不会报错。因为 .cfg 文件定义了网络结
关于#echarts#词云图的问题，如何解决？ echarts spring boot 前端
2023-01-20 21:07

回答 2 已采纳确认 echarts.js 和 wordcloud.js 文件的版本是否正确。确认 echarts.js 和 wordcloud.js 文件是否能够正确的加载。你可以在浏览器的开发者工具中检查文件是
PyTorch 到底香在哪里？
2021-10-12 12:35

Amusi（CVer）的博客点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达总有人在后台问我，如今 TensorFlow 和 PyTorch 两个深度学习框架，哪个更流行？就这么说吧，今年面试的实...
pytorch引入包错误，如何解决？(语言-python) python pytorch
2023-01-04 17:33

回答 4 已采纳你好，这个错误可能是由于 Pandas 库依赖的其他库或文件缺失引起的。在你尝试引入 Pandas 库之前，请确保你已经安装了它所依赖的其他库。你可以使用 pip 或 conda 命令来安装这些库。
Mojo编程语言概述、原理及应用.pdf
2024-03-31 19:58

Mojo是一种新兴的编程语言，旨在解决当前编程领域中的一些问题，特别是在数据科学、机器学习和高性能计算方面。Mojo的出现，为开发者提供了一个兼具Python的易用性和C++性能优势的选择，使其能够更高效地构建和运行...
2020 PyTorch全球开发者日：Pytorch 2021 将走向何方？
2020-12-03 08:48

人工智能与算法学习的博客这块讲的是怎么在R和Haskell里面实现类似PyTorch的API（但是用的同一套内核），从而让这些语言的用户不需要切换到Python也可以享受到PyTorch一般的爽感这个感觉可能跟 @王益大神参与的golang + Torch类似？...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月24日

悬赏问题

¥15 matlab数据降噪处理，提高数据的可信度，确保峰值信号的不损失？
¥15 怎么看我在bios每次修改的日志
¥15 python+mysql图书管理系统
¥15 Questasim Error: (vcom-13)
¥15 船舶旋回实验matlab
¥30 SQL 数组，游标，递归覆盖原值
¥15 为什么我的数据接收的那么慢呀有没有完整的 hal 库并代码呀有的话能不能发我一份并且我用 printf 函数显示处理之后的数据，用 debug 就不能运行了呢
¥20 gitlab 中文路径，无法下载
¥15 用动态规划算法均分纸牌
¥30 udp socket，bind 0.0.0.0 ，如何自动选取用户访问的服务器IP来回复数据

关于#Pytorch#的问题，如何解决？

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新