cuda GPU没用上不知道为什么，cpu倒是用了很多

我测试过cuda能不能用是可以用的，跑倒是可以跑，就是GPU没动各位能帮看下吗

[
](

import torch
from torch import nn
from net import MyAlexNet
import numpy as np
from torch.optim import lr_scheduler
import os

from torchvision import transforms
from torchvision.datasets import ImageFolder
from torch.utils.data import DataLoader

import matplotlib.pyplot as plt

# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False


ROOT_TRAIN = r'data/train'
ROOT_TEST = r'data/val'



# 将图像的像素值归一化到【-1， 1】之间
normalize = transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
#训练集数据处理把图像resize为224 224 之后再进行数据增强，之后转化为张量让进行学习 再归一化一次
train_transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.RandomVerticalFlip(),
    transforms.ToTensor(),
    normalize])
#训练集数据处理把图像resize为224 224 之后再进行数据增强，之后转化为张量让进行学习 再归一化一次
val_transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    normalize])
#数据导入
train_dataset = ImageFolder(ROOT_TRAIN, transform=train_transform)
val_dataset = ImageFolder(ROOT_TEST, transform=val_transform)

train_dataloader = DataLoader(train_dataset, batch_size=128, shuffle=True)
val_dataloader = DataLoader(val_dataset, batch_size=128, shuffle=True)


device = 'cuda' if torch.cuda.is_available() else 'cpu'

model = MyAlexNet().to(device)

# 定义一个损失函数
loss_fn = nn.CrossEntropyLoss()

# 定义一个优化器
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

# 学习率每隔10轮变为原来的0.5
lr_scheduler = lr_scheduler.StepLR(optimizer, step_size=10, gamma=0.5)

# 定义训练函数
def train(dataloader, model, loss_fn, optimizer):
    loss, current, n = 0.0, 0.0, 0  #loss值 精确度的值 指示器
    for batch, (x, y) in enumerate(dataloader):  #定义循环，把数据取出来进行训练
        image, y = x.to(device), y.to(device)   #前向传播 数据导入到显卡里
        output = model(image) #进入显卡后进行一个模型的训练
        cur_loss = loss_fn(output, y) #定义一个误差，真实值和预测值来进行误差技术，来进行反向传播
        _, pred = torch.max(output, axis=1)  #取预测最大值
        cur_acc = torch.sum(y==pred) / output.shape[0] #计算精确率 每一次都是一次所以累加起来除里面有多少个数

        # 反向传播
        optimizer.zero_grad() #首先梯度降为0
        cur_loss.backward()#通过loss值给反向传播机会
        optimizer.step()#更新梯度 先将梯度归零（optimizer.zero_grad()），然后反向传播计算得到每个参数的梯度值（loss.backward()），最后通过梯度下降执行一步参数更新（optimizer.step()）
        loss += cur_loss.item() #loss累加，一轮里有很多批次
        current += cur_acc.item()#精确度再加起来
        n = n+1 #多少轮

    train_loss = loss / n #每一批次的平均loss值
    train_acc = current / n #每一批次的平均acc值
    print('train_loss' + str(train_loss))
    print('train_acc' + str(train_acc))
    return train_loss, train_acc #返回值画图用

# 定义一个验证函数
def val(dataloader, model, loss_fn): #此处验证不需要反向传播
    # 将模型转化为验证模型
    model.eval()
    loss, current, n = 0.0, 0.0, 0
    with torch.no_grad():
        for batch, (x, y) in enumerate(dataloader):
            image, y = x.to(device), y.to(device)
            output = model(image)
            cur_loss = loss_fn(output, y)
            _, pred = torch.max(output, axis=1)
            cur_acc = torch.sum(y == pred) / output.shape[0]
            loss += cur_loss.item()
            current += cur_acc.item()
            n = n + 1

    val_loss = loss / n
    val_acc = current / n
    print('val_loss' + str(val_loss))
    print('val_acc' + str(val_acc))
    return val_loss, val_acc

# 定义画图函数
def matplot_loss(train_loss, val_loss):#过拟合还是欠拟合了
    plt.plot(train_loss, label='train_loss')
    plt.plot(val_loss, label='val_loss')
    plt.legend(loc='best')
    plt.ylabel('loss')
    plt.xlabel('epoch')
    plt.title("训练集和验证集loss值对比图")
    plt.show()

def matplot_acc(train_acc, val_acc):
    plt.plot(train_acc, label='train_acc')
    plt.plot(val_acc, label='val_acc')
    plt.legend(loc='best')
    plt.ylabel('acc')
    plt.xlabel('epoch')
    plt.title("训练集和验证集acc值对比图")
    plt.show()



# 开始训练
loss_train = []
acc_train = []
loss_val = []
acc_val = []


epoch = 20
min_acc = 0
for t in range(epoch):
    lr_scheduler.step()
    print(f"epoch{t+1}\n-----------")
    train_loss, train_acc = train(train_dataloader, model, loss_fn, optimizer)
    val_loss, val_acc = val(val_dataloader, model, loss_fn)#验证不需要反向

    loss_train.append(train_loss)
    acc_train.append(train_acc)
    loss_val.append(val_loss)
    acc_val.append(val_acc)

    # 保存最好的模型权重
    if val_acc >min_acc:
        folder = 'save_model'
        if not os.path.exists(folder):
            os.mkdir('save_model')
        min_acc = val_acc
        print(f"save best model, 第{t+1}轮")
        torch.save(model.state_dict(), 'save_model/best_model.pth')
    # 保存最后一轮的权重文件
    if t == epoch-1:
        torch.save(model.state_dict(), 'save_model/last_model.pth')

matplot_loss(loss_train, loss_val)


matplot_acc(acc_train, acc_val)
print('Done!')



```)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

pytorch 模型在GPU上但训练时仍使用CPU python 有问必答神经网络
2021-05-13 18:05

回答 3 已采纳你要安装cuda和cudnn，参考一下https://zhuanlan.zhihu.com/p/106133822
YOLO v5训练使用CPU正常，使用GPU训练 box cls obj均为nan pytorch 深度学习目标检测
2022-01-15 21:21

回答 2 已采纳解决了，既然锁定问题出在显卡上，在坚信不是硬件问题的前提下，只能一遍一遍换驱动版本。刚开始用的最早的驱动版本是11.3，pytorch支持的另一个cuda版本10.2 nvidia官网不支持wind
在cuda中如何挑选gpu数组中满足特定条件的数据,并组成一个新的数组(不要把值赋给cpu计算)
2018-07-31 08:59

回答 1 已采纳 https://zhidao.baidu.com/question/1516426737538017540.html 楼主看看这个和你的问题一样。
【深度学习】记录为什么没有调用GPU
2024-06-21 11:15

sdbhewfoqi的博客排查CLIP为什么评测推理没有调用GPU，因为model并没有to.cuda()。主要是这个代码：https://github.com/OFA-Sys/Chinese-CLIP/blob/master/cn_clip/eval/extract_features.py在使用图像模型提取图片特征时，GPU利用率...
用tensorflow做训练os.environ['CUDA_VISIBLE_DEVICES'] = '/gpu:0' 无法调用gpu执行 tensorflow 人工智能深度学习
2021-09-05 22:51

回答 1 已采纳 os.environ['CUDA_VISIBLE_DEVICES'] = '0' 你就一张显卡，那肯定是写个0就可以了啊，也就是默认编号为0的显卡，你指定1，2，3的话你本身又没有多显卡，那只能
跑yolo的时候gpu占用了为0 python 人工智能深度学习
2022-10-25 09:11

回答 2 已采纳显存沾满说明有调用，只不过瓶颈不在GPU，而是你的其他部分，也就是常说的木桶效应，比如你这个明显就是内存不足导致的。另外，很多人有个误解，说GPU使用率不高，是不是没调用，但是实际上这里显示的一般是平
为啥始终不能用gpu跑pytorch框架 pytorch 机器学习深度学习
2022-10-28 11:16

回答 1 已采纳显存占用多少？不要看显卡使用率，这个是平均使用率，如果模型小数据少，使用率低很正常
GPU版pytorch安装成功却无法使用cuda
2022-10-27 20:47

dl_风禾的博客因为这个大坑，可以说浪费了一整个晚上的时间，在借鉴了很多博客之后，下面这个博主的博客可以说是一个超级好的解决方法。在远程服务器安装pytorch，根据官网命令进行安装，但在完成之后，显示GPU不可用，故记录此...
运行YOLOv5的时候显示cuda:0是什么原因 opencv pycharm python
2022-05-21 14:16

回答 1 已采纳 cuda0,指的是你gpu的编号，就是说使用的是你的第0张显卡。一般用一张显卡都是这样的。
cuda不知道哪里出了问题 tensorflow 深度学习神经网络
2022-04-23 10:28

回答 1 已采纳 cuda和cudnn的版本必须匹配，可以查阅一下版本对照表
cuda核函数不执行的可能原因？
2018-07-15 08:54

回答 5 已采纳代码是在设备上运行的么，没有使用主机变量吧，没有爆内存吧，还有驱动程序对不对。你可以先测试自带的例子程序，排除环境问题。
一文搞懂AI大模型算力之GPU的概念、工作原理
2024-07-15 19:00

喝不喝奶茶丫的博客一言以蔽之，GPU不管是处理图形渲染、数值分析，还是处理AI推理。底层逻辑都是将极为繁重的数学进行任务拆解，化繁为简。然后，利用GPU多流处理器的机制，将大量的运算拆解为一个个小的、简单的运算，并行处理。我们...
深度学习时的gpu和cpu使用率 python pytorch 深度学习
2023-01-31 19:05

回答 4 已采纳简单来说，gpu的利用率是指平均利用率而不是瞬时。所以你这个是显卡有调用，但是由于显卡计算速度快，而数据读到显卡里面慢的问题。也就是显卡计算完毕之后是在等待cpu指令然后内存给数据，他是空闲状态才导致
模型训练中，不调用gpu比调用gpu更快的情况
2022-09-29 20:30

要硕果累累呀的博客 gpu，cpu，训练时间
NVIDIA GPU 架构 & CUDA 平台入门学习
2024-08-26 17:33

Shanshan Shen的博客 NVIDIA GPU 架构 & CUDA 平台入门学习
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月29日

悬赏问题

¥15 MYSQL 多表拼接link
¥15 关于某款2.13寸墨水屏的问题
¥15 obsidian的中文层级自动编号
¥15 同一个网口一个电脑连接有网，另一个电脑连接没网
¥15 神经网络模型一直不能上GPU
¥15 pyqt怎么把滑块和输入框相互绑定，求解决！
¥20 wpf datagrid单元闪烁效果失灵
¥15 券商软件上市公司信息获取问题
¥100 ensp启动设备蓝屏，代码clock_watchdog_timeout
¥15 Android studio AVD启动不了

cuda GPU没用上不知道为什么，cpu倒是用了很多

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新