为什么跑深度学习，matlab与PyTorch结果不一?

我的数据是四维数据，一共8000个样本，做深度学习分类问题。先用PyTorch进行训练测试。

训练集与测试集四比一划分。

模型为卷积－bn层－relu－maxpool，共两层，最后加Softmax分类。

由于bn层的存在，在加入model.eval之后验证集的准确率波动很大，有的时候70%直接跌落20%，检查了归一化，batchsize，学习率等地方都没有发现问题。于是在matlab上使用相同的划分，相同的参数，相同的模型，但最后的验证集结果很稳定，可以收敛，波动也不大。

已知PyTorch代码没有问题，matlab效果不错也证明数据没有问题。

import h5py
import torch
import torch.nn as nn
from torch.utils import data
import torch.nn.functional as F
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold
import numpy as np
from torch import optim
import matplotlib.pyplot as plt
from tqdm import tqdm

xy = h5py.File('autodl-nas/data60-80.mat','r')
x  = xy['dataX_new']
y  = xy['dataY_new']
x  = torch.tensor(np.array(x))    #(8000,94,80,60)
y  = torch.squeeze(torch.tensor((np.array(y)-np.ones((8000,1))),dtype = torch.long))   #(8000,)

def train_test_dataset(x,y):
    xtrain,xtest,ytrain,ytest = train_test_split(x,y,test_size=0.2,shuffle=True,stratify=y)
    trainset = data.TensorDataset(xtrain,ytrain)
    testset  = data.TensorDataset(xtest,ytest)
    return trainset,testset

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.conv1 = nn.Conv2d(94,32,3,padding=1)
        self.conv2 = nn.Conv2d(32,64,3,padding=1)
        self.bn1   = nn.BatchNorm2d(32)
        self.bn2   = nn.BatchNorm2d(64)
        self.maxpool = nn.MaxPool2d(5,2,padding=2)
        self.fc1   = nn.Linear(64*15*20,128)
        self.fc2   = nn.Linear(128,32)
        self.fc3   = nn.Linear(32,8)

    def forward(self,x):
        x = F.relu(self.bn1(self.conv1(x)))
        x = self.maxpool(x)
        x = F.relu(self.bn2(self.conv2(x)))
        x = self.maxpool(x)
        x = x.view(-1,64*15*20)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

device = torch.device("cuda")
lr=8e-4

criterion = nn.CrossEntropyLoss()
criterion.to(device)

def fit(epoch, model, trainloader, testloader):
    correct = 0
    total   = 0
    running_loss = 0.0
    model.train()
    for x,y in tqdm(trainloader):
        x,y = x.to(device),y.to(device)
        y_pred = model(x)
        loss   = criterion(y_pred,y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        with torch.no_grad():
            y_pred = torch.argmax(y_pred,dim=1)
            correct += (y_pred == y).sum().item()
            total += y.size(0)
            running_loss += loss.item()
    epoch_loss = running_loss / len(trainloader.dataset)
    epoch_acc  = correct/total

    test_correct = 0
    test_total   = 0
    test_running_loss = 0.0
    model.eval()
    with torch.no_grad():
        for x,y in testloader:
            x,y = x.to(device),y.to(device)
            y_pred = model(x)
            loss = criterion(y_pred, y)
            y_pred = torch.argmax(y_pred,dim=1)
            test_correct += (y_pred == y).sum().item()
            test_total += y.size(0)
            test_running_loss += loss.item()

    epoch_test_loss = test_running_loss/len(testloader.dataset)
    epoch_test_acc  = test_correct/test_total

    print("epoch:{} train_loss:{} train_accuracy:{} test_loss:{} test_accuracy:{}".format(
        epoch,round(epoch_loss,3),round(epoch_acc,3),round(epoch_test_loss,3),round(epoch_test_acc,3)))

    return epoch_loss, epoch_acc, epoch_test_loss, epoch_test_acc

if __name__ =='__main__':
    epochs = 80
    batchsize = 128
    train_loss = []
    train_acc  = []
    test_loss  = []
    test_acc   = []
    epoch_list = []
    # 随机划分
    trainset, testset = train_test_dataset(x,y)
    model = Model()
    model.type(dst_type='torch.DoubleTensor')
    model.to(device)
    optimizer = optim.Adam(model.parameters(), lr=lr)
    trainloader = data.DataLoader(trainset,batch_size=batchsize,shuffle=True)
    testloader  = data.DataLoader(testset,batch_size=batchsize,shuffle=False)
    for epoch in range(epochs):
        epoch_loss, epoch_acc, epoch_test_loss, epoch_test_acc = fit(epoch,model,trainloader, testloader)
        train_loss.append(epoch_loss)
        train_acc.append(epoch_acc)
        test_loss.append(epoch_test_loss)
        test_acc.append(epoch_test_acc)
        epoch_list.append(epoch)
    # 画图
    plt.figure(figsize=(10,10))
    plt.subplot(2,1,1)
    plt.plot(epoch_list,train_loss)
    plt.plot(epoch_list,test_loss)
    plt.xlabel('epoch')
    plt.ylabel('loss')
    plt.legend(['train','test'])
    plt.grid(True)
    plt.subplot(2,1,2)
    plt.plot(epoch_list,train_acc)
    plt.plot(epoch_list,test_acc)
    plt.xlabel('epoch')
    plt.ylabel('accuracy')
    plt.legend(['train','test'])
    plt.grid(True)
    plt.show()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱晚乏客游 2022-04-02 09:46
关注
就算不一致也不至于像你说的差距那么大，不然深度学习早就用matlab而不是py了。你不贴代码谁知道你说的代码没问题是真没问题还是假没问题
我用你的代码跑的mnist，所以代码问题也不是很大。
关键就是你说的数据归一化在哪里？然后epoch加大一些看下是不是没有收敛。
下面两图就是跑mnist的时候对数据归一化（上图，img/255.0）和没有对数据归一化（下图）的loss曲线和acc曲线，你可以看到没有归一化的数据曲线波动比较大

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

matlab与pytorch拟合效果对比 dnn matlab pytorch
2022-09-15 10:28

回答 1 已采纳首先题主的epoch，matlab比pytorch多了600轮，一个1k，一个400，另外就是lr，对不上。然后可能还有其它值，没有细看了。那一个步长小，学习慢，轮数少，和一个相反的，没有可比性，可能
深度学习必要要配置环境吗？ python pytorch 深度学习
2022-07-04 16:34

回答 1 已采纳不是必须的，anaconda是个全家桶，他自带一些集成包和工具。你也可以选择自己去安装这些
深度学习训练模型的时候一个epoch的时间为什么会越来越长？ pytorch 深度学习目标检测
2021-09-16 21:35

回答 1 已采纳在训练的时候用visdom可视化每个iterator的loss值，把visdom换成tensorbord发现问题解决了，应该是用visdom记录的时候占用了电脑的进程。
【深度学习】什么是深度学习？
2024-08-10 06:00

月下独码的博客以上就是忧患深度学习的介绍，分别从深度学习如何...深度学习与机器学习的重要性差异深度学习为何如此重要，以及使用MATLAB进行深度学习的一些模型介绍等多角度对深度学习进行阐述，相信大家对深度学习有了一定的认识！
为啥始终不能用gpu跑pytorch框架 pytorch 机器学习深度学习
2022-10-28 11:16

回答 1 已采纳显存占用多少？不要看显卡使用率，这个是平均使用率，如果模型小数据少，使用率低很正常
Windows版本，AMD显卡能搞Pytorch吗？ pytorch 深度学习神经网络
2022-06-08 22:43

回答 1 已采纳 ROCm路子官网只支持linux，不过我也没用过，但是听说bug和问题很多，另外就是微软的pytorch-DirectML，你可以试试看下这个能不能走得通，走不通就没办法了,深度学习还得是cuda。
develop的pytorch是什么？ python
2022-01-14 23:13

回答 1 已采纳 pip3 install torchvision
MATLAB算法实战应用案例精讲-【深度学习】多尺度特征融合
2023-04-09 00:15

林聪木的博客因此我们在深度学习中把这些特征全部加在一起对于检测和分割都很有效果。多尺度融合的方法主要是为了在增加小目标语义信息的同时丰富小目标的细节信息，对目标进行更加准确的分类和定位，以此提高小目标检测效果。...
pytorch官网给的resnet程序跑不通 pytorch 人工智能深度学习
2022-03-21 08:30

回答 1 已采纳提示不是说了吗，需要切换函数的API，你用的函数是旧版本的，需要切换到新版本去，报错提示里面也跟你说了要切换哪些什么函数了
PyTorch 怎么修改默认device？ pytorch 深度学习神经网络
2022-04-26 09:27

回答 2 已采纳没有方法，只能 device = device = torch.device('cuda',0) # 在后续的 torch.Tensor 和 torch.nn.Module 后添加 to(devic
pytorch空权重运行，按理说是随机数，为何每次运行结果相同？人工智能深度学习神经网络
2020-05-19 00:35

回答 1 已采纳这很正常。你丢硬币1000次，计算正面向上的，总是0.5，永远不会是0.1或者0.9 虽然每次都是随机的。
深度学习的应用与实践
2020-01-08 11:06

喜欢打酱油的老鸟的博客 深度学习，英文名称为Deep Learning，是近几年人工智能领域的主要研究方向。深度学习的主要任务是通过构建深度卷积神经网络（Deep Neural Network，DNN）和采用大量样本数据作为输入，人们最终会得到一个具有强大...
关于#深度学习#的问题：用adaboost或者xgboost算法把pytorch上的三个网络集成 pytorch 深度学习神经网络
2023-02-19 15:19

回答 1 已采纳对于集成多个PyTorch模型，可以使用以下步骤： 1.定义数据集并进行数据预处理。 2.分别定义和训练每个模型。可以使用不同的超参数和损失函数来训练每个模型以提高模型的多样性。 3.在每个模型上进行
MATLAB算法实战应用案例精讲-【深度学习】多尺度特征融合-图像识别（论文篇三）
2023-04-14 00:15

林聪木的博客 人工智能自上个世纪诞生以来，引领了多个领域的理论技术发展，例如人机对弈，人脸识别、自动工程以及医疗影像等，在大部分领域，我们都可以感受到人工智能带来的量变和质变。机器学习是人工智能研究的一个重要的领域...
深度学习的简介、领域、框架和实际应用概述
2019-11-25 18:31

老兵安帕赫的博客 深度学习，英文名称为Deep Learning，是近几年人工智能领域的主要研究方向。深度学习的主要任务是通过构建深度卷积神经网络（Deep Neural Network，DNN）和采用大量样本数据作为输入，人们最终会得到一个具有强大...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月1日

悬赏问题

¥15 12864只亮屏不显示汉字
¥20 三极管1000倍放大电路
¥15 vscode报错如何解决
¥15 前端vue CryptoJS Aes CBC加密后端java解密
¥15 python随机森林对两个excel表格读取，shap报错
¥15 基于STM32心率血氧监测（OLED显示）相关代码运行成功后烧录成功OLED显示屏不显示的原因是什么
¥100 X轴为分离变量（因子变量），如何控制X轴每个分类变量的长度。
¥30 求给定范围的全体素数p的(p-2)/p的连乘积值
¥15 VFP如何使用阿里TTS实现文字转语音？
¥100 需要跳转番茄畅听app的adb命令

为什么跑深度学习，matlab与PyTorch结果不一?

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新