深度学习多层感知机基础问题提问

以下是我的代码，想问一下为什么会出现mat1 and mat2 shapes cannot be multiplied (256x256 and 10x256)这个错误呢？该如何修改呢？

import torch
import numpy as np
import torchvision
import torchvision.transforms as transforms
import sys
sys.path.append("C:/Users/zyx20/Desktop/深度学习编程/pythonProject")
import d2lzh_pytorch as d2l
batch_size = 256
if sys.platform.startswith('win'):
    num_workers = 0  # 0表示不用额外的进程来加速读取数据
else:
    num_workers = 4
mnist_train = torchvision.datasets.FashionMNIST(root='C:/Users/zyx20/Desktop/深度学习编程/MNIST/raw', train=True, download=True, transform=transforms.ToTensor())
mnist_test = torchvision.datasets.FashionMNIST(root='C:/Users/zyx20/Desktop/深度学习编程/MNIST/raw', train=False, download=True, transform=transforms.ToTensor())
train_iter = torch.utils.data.DataLoader(mnist_train, batch_size=batch_size, shuffle=True, num_workers=num_workers)
test_iter = torch.utils.data.DataLoader(mnist_test, batch_size=batch_size, shuffle=False, num_workers=num_workers)
#定义模型参数
num_inputs,num_outputs,num_hiddens=784,10,256
W1=torch.tensor(np.random.normal(0,0.01,(num_inputs,num_hiddens)))
b1=torch.zeros(num_hiddens)
W2=torch.tensor(np.random.normal(0,0.01,(num_outputs,num_hiddens)))
b2=torch.zeros(num_outputs)

params=[W1,b1,W2,b2]
for param in params:
    param.requires_grad_(requires_grad=True)
#定义激活函数
def relu(X):
    return torch.max(input=X,other=torch.tensor(0.0))
#定义模型
def net(X):
    X=X.view((-1,num_inputs))
    H=relu(torch.matmul(X,W1)+b1)
    return torch.matmul(H,W2)+b2
#定义损失模型
loss=torch.nn.CrossEntropyLoss()
#训练模型
num_epochs,lr=5,100.0
def train_ch3(net,train_iter,test_iter,loss,num_epochs,batch_size,params=None,lr=None,optimizer=None):
    for epoch in range(num_epochs):
        train_l_sum,train_acc_sum,n=0.0,0.0,0
        for X,y in train_iter:
            y_hat=net(X)
            l=loss(y_hat,y).sum()

            #梯度清零
            if optimizer is not None:
                optimizer.zero_grad()
            elif params is not None and params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()

            l.backward()
            if optimizer is None:
                d2l.sgd(params,lr,batch_size)
            else:
                optimizer.step()

            train_l_sum+=l.item()
            train_acc_sum+=(y_hat.argmax(dim=1)==y).sum().item()
            n+=y.shape[0]
        test_acc=evaluate_accuracy(test_iter,net)
        print('epoch %d,loss %.4f,train acc %.3f,test acc %.3f'%(epoch+1,train_l_sum/n,train_acc_sum/n,test_acc))
train_ch3(net,train_iter,test_iter,loss,num_epochs,batch_size,params,lr)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-02-02 10:51
关注
引自免费微信小程序：皆我百晓生

在您提供的代码中，错误提示mat1 and mat2 shapes cannot be multiplied (256x256 and 10x256)发生在矩阵乘法操作torch.matmul(H,W2)处。根据矩阵乘法规则，第一个矩阵的列数必须与第二个矩阵的行数相匹配才能进行乘法运算。然而，在您的网络定义中：

H的维度是(batch_size, num_hiddens)，即每个批次中的样本数量（这里是256）乘以隐藏层神经元个数（256）。
W2的维度是(num_outputs, num_hiddens)，即输出类别数（10）乘以隐藏层神经元个数（256）。

所以当尝试将H和W2相乘时，就出现了形状不匹配的问题，因为H的列数（256）并不等于W2的行数（10）。

要修正这个错误，请确保输出层权重矩阵W2的形状与隐藏层激活后的输出H相匹配。在这个例子中，应将W2的形状改为(num_outputs, num_hiddens)到(num_outputs, num_inputs)，以便与输入层到隐藏层后展平的尺寸(-1, num_inputs)对应。

修改后的W2初始化部分应该是：

W2 = torch.tensor(np.random.normal(0, 0.01, (num_outputs, num_inputs)))

这样修改之后，W2的行数将会与H的列数相同，从而解决矩阵乘法时的形状不匹配问题。
解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Keras的多层感知机分类问题（解决有偿） python 人工智能有问必答神经网络
2021-05-30 11:43

回答 3 已采纳 pd读取出来的数据没有进行正确处理。可以私聊具体解决下，有意请采纳
“深度学习”和“多层神经网络”的区别深度学习
2022-10-12 13:04

回答 1 已采纳 深度学习比多层神经网络更深
多层感知机手写数字识别教学需要知道的参数有哪些？ python 人工智能有问必答
2021-12-09 12:32

回答 1 已采纳这个要理解多层感知机的一些常规参数，然后根据这些参数编写程序，这个还得要看多层感知机具体功能有哪些才能决定能实现什么功能
【深度学习】基于多层感知机的手写数字识别
2024-02-12 15:00

住在天上的云的博客案例2：构建自己的多层感知机: MNIST手写数字识别相关知识点: numpy科学计算包，如向量化操作，广播机制等 1 任务目标 1.1 数据集简介 MNIST手写数字识别数据集是图像分类领域最常用的数据集之一，它包含60,000...
基于多层感知机的船舶油耗预测模型如何去改良？ python tensorflow 数据分析
2023-03-06 16:43

回答 8 已采纳这个可以有，你把数据集发给我吧
机器学习交叉验证问题人工智能机器学习
2022-03-29 20:00

回答 1 已采纳我觉得可能是数据的问题。我之前做叶绿素，验证集也是一直低于训练，但是这是没问题的，可能是数据量太小的缘故，但是我那个数据量提升也还是验证loss低于训练
多层数组对象计算问题 javascript
2021-07-22 10:52

回答 2 已采纳参考这个 var arr = [ { li: [ { a: 2, name: '10' },
多层感知机：深度学习的基础
2024-01-11 01:12

禅与计算机程序设计艺术的博客 多层感知机(Multilayer Perceptron, MLP)是一种人工神经网络，它是深度学习的基础之一。它由多个神经元组成，这些神经元被组织成多层，每层之间有权重和偏置的连接。多层感知机的核心思想是通过多层神经元的层次化...
深度学习入门实践的典型例题-手写数字识别 python
2023-03-15 17:57

回答 2 已采纳参考GPT和自己的思路：针对你提出的问题，我来逐一回答： AttributeError: module 'paddle.fluid.dygraph' has no attribute 'to_var
C语言多层循环问题如何解决 c语言有问必答
2022-11-28 17:41

回答 3 已采纳 for (z = 1; price < 100; z++) 这里不对啊，你的price如果满足 if(price == 100)这个条件，price就是100了，for循环的条件price &l
js中引号多层嵌套的问题 html5 javascript
2020-04-09 00:17

回答 2 已采纳可以使用转义符\" ``` changeClass2(\"CLASS_2_DIV\",\"CLASS_2\",\"小类\",\"CLASS_1\",CLASS_2) ```
【深度学习】多层感知机与卷积神经网络解析
2024-04-11 08:00

X.AI666的博客作为支撑这一领域核心技术的基石，多层感知机（MLP）和卷积神经网络（CNN）在模仿人类大脑处理信息的方式中扮演了重要角色，并在解决复杂计算机视觉问题上展现出了惊人的能力。本文将带领读者深入这两种网络结构的深...
java 多层嵌套问题！！ java json 数据库
2018-09-17 08:25

回答 6 已采纳如果是单纯Java代码取数据，需要递归。如果是要前台展示，一般都有现成前台框架，你只需要查询子父级所有消息就行，然后对应绑定子父id，就可以自动绑定再树里。无需递归
深度学习入门之多层感知机
2022-11-14 17:13

ℳ๓执手ꦿ听风吟້໌ᮨ的博客单层感知机由于存在局限性，只能划分线性空间，对于非线性空间的处理，对于单层感知机却无能为力，无法进行有效的划分，因此，需要学习多层感知机，用于处理非线性空间。以上就是对多层感知机的简单介绍。
深度学习（5）——多层感知机
2022-06-25 11:33

星辰大海_coli的博客 深度学习之MLP
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月2日

悬赏问题

¥15 通过AT指令控制esp8266发送信息
¥15 有哪些AI工具提供可以通过代码上传EXCEL文件的API接口，并反馈分析结果
¥15 二维装箱算法、矩形排列算法（相关搜索：二维装箱）
¥20 nrf2401上电之后执行特定任务概率性一直处于最大重发状态
¥15 二分图中俩集合中节点数与连边概率的关系
¥20 wordpress如何限制ip访问频率
¥15 自研小游戏，需要后台服务器存储用户数据关卡配置等数据
¥15 请求解答odoo17外发加工某工序的实操方法
¥20 IDEA ssm项目跳转页面报错500
¥20 系统直接进入应急模式了，请教一下，人要裂开了

深度学习多层感知机基础问题提问

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新