深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集

根据CNN网络模型，搭建BP模型并训练MNIST数据集，并计算精确度

import torch
import torch.nn as nn
from torch.utils.data import DataLoader
from torchvision import transforms
from torchvision import datasets
import matplotlib.pyplot as plt
%matplotlib inline
# 展示高清图
from matplotlib_inline import backend_inline
backend_inline.set_matplotlib_formats('svg')
# 制作数据集

# 设定下载参数
transform = transforms.Compose([
    transforms.ToTensor(), 
    transforms.Normalize(0.1307, 0.3081)
])

# 下载训练集与测试集
train_Data = datasets.MNIST(
    root = 'D:/Jupyter/dataset/mnist/', 
    train = True, 
    download = True, 
    transform = transform
)
test_Data = datasets.MNIST(
    root = 'D:/Jupyter/dataset/mnist/', 
    train = False, 
    download = True, 
    transform = transform
)
# 批次加载器
train_loader = DataLoader(train_Data, shuffle=True, batch_size=256)
test_loader  = DataLoader(test_Data, shuffle=False, batch_size=256)


class CNN(nn.Module):
    def __init__(self):
        super(CNN,self).__init__()
        self.net = nn.Sequential(
            nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.Tanh(),
            nn.AvgPool2d(kernel_size=2, stride=2),
            nn.Conv2d(6, 16, kernel_size=5), nn.Tanh(),
            nn.AvgPool2d(kernel_size=2, stride=2),
            nn.Conv2d(16, 120, kernel_size=5), nn.Tanh(),
            nn.Flatten(),
            nn.Linear(120, 84), nn.Tanh(),
            nn.Linear(84, 10)
        )

    def forward(self, x):
        y = self.net(x)
        return y
# 查看网络结构
X = torch.rand(size= (1, 1, 28, 28))
for layer in CNN().net:
    X = layer(X)
print( layer.__class__.__name__, 'output shape: \t', X.shape )
# 创建子类的实例，并搬到GPU上
model = CNN().to('cuda:0')
# 损失函数的选择
loss_fn = nn.CrossEntropyLoss()    # 自带softmax激活函数
# 优化算法的选择
learning_rate = 0.9    # 设置学习率
optimizer = torch.optim.SGD(
    model.parameters(), 
    lr = learning_rate, 
)
# 训练网络
epochs = 5
losses = []        # 记录损失函数变化的列表

for epoch in range(epochs):
    for (x, y) in train_loader:                  # 获取小批次的x与y
        x, y = x.to('cuda:0'), y.to('cuda:0')    # 把小批次搬到GPU上
        Pred = model(x)                          # 一次前向传播（小批量）
        loss = loss_fn(Pred, y)                  # 计算损失函数
        losses.append(loss.item())               # 记录损失函数的变化
        optimizer.zero_grad()                    # 清理上一轮滞留的梯度
        loss.backward()                          # 一次反向传播
        optimizer.step()                         # 优化内部参数

Fig = plt.figure()
plt.plot(range(len(losses)), losses)
plt.show()
# 测试网络
correct = 0
total = 0

with torch.no_grad():                                   # 该局部关闭梯度计算功能
    for (x, y) in test_loader:                          # 获取小批次的x与y
        x, y = x.to('cuda:0'), y.to('cuda:0')           # 把小批次搬到GPU上
        Pred = model(x)                                 # 一次前向传播（小批量）
        _, predicted = torch.max(Pred.data, dim=1)
        correct += torch.sum( (predicted == y) )
        total += y.size(0) 
        
print(f'测试集精准度: {100*correct/total} %')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

20条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-25 22:34
关注
获得0.45元问题酬金
引自免费微信小程序：皆我百晓生

在您提供的代码中，您已经成功地基于卷积神经网络（CNN）模型搭建了一个深度学习框架，并对MNIST数据集进行了训练。以下是您代码的简要分析和一些可能的改进点：

代码分析：

数据预处理：

使用torchvision.transforms定义了数据转换，包括将图像转换为张量、进行归一化。

数据集加载：

使用torchvision.datasets.MNIST加载MNIST数据集，分别设置了训练集和测试集的路径。
使用DataLoader创建批次加载器，对训练集和测试集进行批量化处理。

CNN模型定义：

定义了一个名为CNN的nn.Module子类，包含了一系列卷积层、激活函数（Tanh）、池化层、全连接层。
在forward方法中，通过self.net(x)实现了输入数据x经过整个网络的前向传播。

模型初始化及设备设置：

实例化CNN模型，并将其移动到GPU（cuda:0）上。

损失函数与优化器：

选择交叉熵损失函数（nn.CrossEntropyLoss）作为损失指标，它自带softmax激活函数。
使用随机梯度下降（SGD）作为优化器，设定学习率为0.9。

模型训练：

进行5个epoch的训练循环，每个循环内遍历训练集的小批次数据。
对每个小批次，执行前向传播、计算损失、清理梯度、反向传播和参数更新。

损失曲线绘制：

记录每次迭代的损失值，绘制训练过程中损失函数的变化曲线。

模型测试与精度计算：

在测试阶段，关闭梯度计算，遍历测试集的小批次数据。
对每个小批次，执行前向传播并计算预测结果，统计正确预测的数量，最终计算测试集精度。

改进建议：

学习率调整：

目前设定的学习率为0.9，对于大多数CNN模型来说，这个值可能过大，可能导致训练过程不收敛。建议尝试更常见的学习率，如0.01或0.001，并考虑使用学习率衰减策略（如torch.optim.lr_scheduler.StepLR）来动态调整学习率。

激活函数选择：

Tanh激活函数在现代深度学习实践中较少使用，通常推荐使用ReLU及其变种（如ReLU、Leaky ReLU、ELU等）。这些激活函数在训练深层网络时能有效缓解梯度消失问题。您可以将nn.Tanh()替换为nn.ReLU(inplace=True)。

优化器参数：

考虑添加动量（momentum）和权重衰减（weight_decay），这有助于加速训练过程并防止过拟合。例如，可以使用torch.optim.SGD(model.parameters(), lr=learning_rate, momentum=0.9, weight_decay=5e-4)。

模型性能评估：

除了计算测试集精度外，还可以考虑计算训练集精度以及训练集和测试集上的混淆矩阵，以便更全面地评估模型性能。

综上所述，您的代码已经实现了基于CNN模型对MNIST数据集的训练和测试。为了进一步提升模型性能，您可以参考上述改进建议进行调整。以下为您提供了修改后的代码：

import torch import torch.nn as nn from torch.utils.data import DataLoader from torchvision import transforms from torchvision import datasets import matplotlib.pyplot as plt transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) train_Data = datasets.MNIST( root='D:/Jupyter/dataset/mnist/', train=True, download=True, transform=transform ) test_Data = datasets.MNIST( root='D:/Jupyter/dataset/mnist/', train=False, download=True, transform=transform ) class CNN(nn.Module): def __init__(self): super(CNN, self).__init__() self.net = nn.Sequential( nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.ReLU(inplace=True), nn.AvgPool2d(kernel_size=2, stride=2), nn.Conv2d(6, 16, kernel_size=5), nn.ReLU(inplace=True), nn.AvgPool2d(kernel_size=2, stride=2), nn.Conv2d(16, 120, kernel_size=5), nn.ReLU(inplace=True), nn.Flatten(), nn.Linear(120, 84), nn.ReLU(inplace=True), nn.Linear(84, 10) ) def forward(self, x): y = self.net(x) return y model = CNN().to('cuda:0') loss_fn = nn.CrossEntropyLoss() learning_rate = 0.001 optimizer = torch.optim.SGD( model.parameters(), lr=learning_rate, momentum=0.9, weight_decay=5e-4 ) epochs = 5 losses = [] for epoch in range(epochs): for (x, y) in train_loader: x, y = x.to('cuda:0'), y.to('cuda:0') Pred = model(x) loss = loss_fn(Pred, y) losses.append(loss.item()) optimizer.zero_grad() loss.backward() optimizer.step() plt.plot(range(len(losses)), losses) plt.xlabel('Iterations') plt.ylabel('Training Loss') plt.title('Training Loss vs. Iterations') plt.show() correct = 0 total = 0 with torch.no_grad(): for (x, y) in test_loader: x, y = x.to('cuda:0'), y.to('cuda:0') Pred = model(x) _, predicted = torch.max(Pred.data, dim=1) correct += torch.sum(predicted == y) total += y.size(0) print(f'Test set accuracy: {100 * correct / total}%')

这段代码已根据改进建议进行了相应调整。如果您在实际运行中遇到问题或需要进一步优化，欢迎继续提问。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

tensorflow CNN训练mnist数据集后识别自己写的数字效果不好 cnn tensorflow 神经网络
2018-04-15 16:32

回答 5 已采纳 MNIST数据集与你自己采集的图像，实际上是两个不同的数据集，你在MNIST上训练，然后在你的数据集上测试，测试性能不好是十分正常的。这实际上涉及在两个相似但是不同的域之间的迁移学习的问题。有三个办法
使用mnist数据搭建的神经网络训练时GPU占用率剧烈波动人工智能机器学习神经网络
2023-04-08 12:36

回答 1 已采纳 mnist数据集太小了，所以gpu用不满，这是很正常的
mnist数据集评估部分不清楚 tensorflow 机器学习神经网络
2019-09-18 15:41

回答 1 已采纳虽然没有train,但是这是一个循环，运行很多次，之前有train过，所以程序没有毛病。
基于CNN卷积神经网络实现mnist手写数据集识别
2022-02-23 20:49

泥签的博客 CNN理论 CNN结构卷积层卷积运算，填充步幅三维数据的运算多滤波器批处理池化层 CNN实现 im2col原理与代码卷积层与池化层的实现 CNN卷积神经网络的实现训练CNN
请求大神帮帮我，加载MNIST数据集后，显示IndexError: too many indices for tensor of dimension 0 人工智能机器学习深度学习神经网络
2020-03-31 15:26

回答 2 已采纳把transforms.Normalize((0.1307),(0.3081))改为transforms.Normalize((0.1307,),(0.3081,))
如何自己做一个类似Fashion-MNIST的数据集 python 深度学习神经网络
2019-09-03 16:43

回答 1 已采纳 https://blog.csdn.net/sdoddyjm68/article/details/78430209
LSTM模型训练过拟合问题。 python 人工智能深度学习神经网络
2020-09-15 10:21

回答 1 已采纳没办法，你的训练样本太少。增加训练样本是唯一的办法。好比吃不饱饭怎么办，不增加饭，采用稀饭掺水，少餐多顿这些办法都治标不治本。所以你看即便it大厂，也在拼命积攒数据以及人工标注数据，花费大
使用MNIST数据集训练第一个pytorch CNN手写数字识别神经网络
2021-08-27 17:19

懒懒小道长的博客 PyTorch 提供了许多预加载的数据集（例如 FashionMNIST），所有数据集都是torch.utils.data.Dataset 的子类，它们具有__getitem__和__len__实现的方法。因此，它们都可以传递给 torch.utils.data.DataLoader 也可以...
FashionMNIST预加载的数据集为啥只有轮廓 python 深度学习
2023-03-02 09:40

回答 1 已采纳 FashionMNIST 是一个经典的图像分类数据集，它包含了一系列服装类别的灰度图像。这些图像的尺寸为 $28\times28$ 像素，每个像素的灰度值在 $0$ 到 $255$ 之间。当你使用预
使用Pycharm运行以下LeNet5的模型进行mnist的训练时报错且不运行 keras python 人工智能
2022-07-18 18:32

回答 2 已采纳严重怀疑是你 TF 装的过程出了问题，建议重新安装或者使用 conda 隔离环境，可以参考 https://tf.wiki/zh_hans/basic/installation.html 的教程，安装
求教大神：自己制作mnist数据集，更改了下长宽，完全按步骤做的，但结果accuracy总是在40%到50%，怎么办 tensorflow 深度学习神经网络
2020-05-31 20:10

回答 1 已采纳看看是不是网络连接错误，使得图片中只有一部分被训练，好比让你只看图片的1/4让你识别是什么数字，你的正确率就会比较低
python手搓CNN训练mnist手写数字数据集！
2024-01-15 20:25

__Gray__的博客手写Conv,BatchNorm,MaxPool的反向传播，调用方式和torch几乎一样!! 仅在1500张图片上训练的测试准确率超过90%
关于使用tensoeflow2.0加载mnist数据集的问题 pycharm python tensorflow 有问必答
2021-08-11 17:48

回答 2 已采纳你这不就是pycharm没有导包成功吗，这些包我安装过很多遍去我博客看，我都有总结，对你有帮助的话采纳顺手点个赞
[Python人工智能] 十七.Keras搭建分类神经网络及MNIST数字图像案例分析
2020-02-18 19:40

Eastmount的博客从本专栏开始，作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章详细讲解了Keras环境搭建、入门基础及回归神经网络案例。本篇文章将通过Keras实现分类学习，以MNIST数字图片为例进行讲解。基础...
基于神经网络的深度学习模型：深度玻尔兹曼机DBN网络基本概念和工作原理
2023-08-04 01:05

禅与计算机程序设计艺术的博客随着深度学习的火热以及模型复杂度的提升，基于神经网络的深度学习模型逐渐受到越来越多学者的关注。而深度玻尔兹曼机(Deep Boltzmann Machines,DBMs)就属于这一类代表性模型。DBM是一种无监督、非生成模型，可以...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 4月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月25日

悬赏问题

¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题

深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集

20条回答 默认 最新

问题事件

悬赏问题

20条回答默认最新