深度学习循环神经网络提问2

以下是我的代码，想问一下运行后为何会出现TypeError: zeros(): argument 'size' must be tuple of ints, but found element of type Linear at pos 2的错误呢？该如何修改呢？

import time
import math
import zipfile

import numpy as np
import torch
from torch import nn,optim
import torch.nn.functional as F

import sys
sys.path.append("C:/Users/zyx20/Desktop/深度学习编程/pythonProject")
import d2lzh_pytorch as d2l
device=torch.device('cuda' if torch.cuda.is_available() else 'cpu')

with zipfile.ZipFile('C:/Users/zyx20/Desktop/深度学习编程/data20201205-master/Data20201205/jaychou_lyrics.txt.zip') as zin:
    with zin.open('jaychou_lyrics.txt') as f:
        corpus_chars=f.read().decode('utf-8')
corpus_chars=corpus_chars.replace('\n','').replace('\r','')
idx_to_char=list(set(corpus_chars))
char_to_idx=dict([(char,i) for i,char in enumerate(idx_to_char)])
vocab_size=len(char_to_idx)
corpus_indices=[char_to_idx[char] for char in corpus_chars]

num_hiddens=256
rnn_layer=nn.RNN(input_size=vocab_size,hidden_size=num_hiddens)

class RNNModel(nn.Module):
    def __init__(self,rnn_layer,vocab_size):
        super(RNNModel,self).__init__()
        self.rnn=rnn_layer
        self.hidden_size=rnn_layer.hidden_size*(2 if rnn_layer.bidirectional else 1)
        self.vocab_size=nn.Linear(self.hidden_size,vocab_size)
        self.state=None

    def forward(self,inputs,state):
        x=d2l.to_onehot(inputs,self.vocab_size)
        y,self.state=self.rnn(torch.stack(x),state)
        output=self.dense(y.view(-1,y.shape[-1]))
        return output,self.state
#定义预测函数
def predict_rnn_pytorch(prefix,num_chars,model,vocab_size,device,idx_to_char,char_to_idx):
    state=None
    output=[char_to_idx[prefix[0]]]
    for t in range(num_chars+len(prefix)-1):
        x=torch.tensor([output[-1]],device=device).view(1,1)
        if state is not None:
            if isinstance(state,tuple):
                state=(state[0].to(device),state[1].to(device))
            else:
                state=state.to(device)

        (y,state)=model(x,state)
        if t<len(prefix)-1:
            output.append(char_to_idx[prefix[t+1]])
        else:
            output.append(int(y.argmax(dim=1).item()))
    return ''.join([idx_to_char[i] for i in output])
model=RNNModel(rnn_layer,vocab_size).to(device)
#定义模型训练函数
def train_and_predict_rnn(model,num_hiddens,vocab_size,device,corpus_indices,
                          idx_to_char,char_to_idx,num_epochs,num_steps,lr,clipping_theta,
                          batch_size,pred_period,pred_len,prefixes):
    optimizer=torch.optim.Adam(model.parameters(),lr=lr)
    model.to(device)
    state=None
    loss=nn.CrossEntropyLoss()

    for epoch in range(num_epochs):
        l_sum,n,start=0.0,0,time.time()
        data_iter=d2l.data_iter_consecutive(corpus_indices,batch_size,num_steps,device)
        for x,y in data_iter:
            if state is not None:
                if isinstance(state,tuple):
                    state=(state[0].to(device),state[1].to(device))
                else:
                    state=state.detach()

        (output,state)=model(x,state)
        y=torch.transpose(y,0.1).contiguous.view(-1)
        l=loss(output,y.long())

        optimizer.zero_grad()
        l.backward()
        d2l.grad_clipping(model.parameters(), clipping_theta, device)
        optimizer.step()
        l_sum += l.item() * y.shape[0]
        n += y.shape[0]

        if (epoch+1)%pred_period==0:
            print('epoch %d,perplexity %f,time %.2f sec'%(epoch+1,math.exp(l_sum/n),time.time()-start))
            for prefix in prefixes:
                print(' -',predict_rnn_pytorch(prefix,pred_len,model,vocab_size,device,idx_to_char,char_to_idx))

num_epochs,num_steps,batch_size,lr,clipping_theta=250,35,32,1e-3,1e-2
pred_period,pred_len,prefixes=50,50,['分开','不分开']
train_and_predict_rnn(model,num_hiddens,vocab_size,device,corpus_indices,
                          idx_to_char,char_to_idx,num_epochs,num_steps,lr,clipping_theta,
                          batch_size,pred_period,pred_len,prefixes)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-03-10 18:08
关注
引自免费微信小程序：皆我百晓生

在您提供的代码中，错误出现在 RNNModel 类的初始化函数内，具体是这一行：

self.vocab_size=nn.Linear(self.hidden_size,vocab_size)

这里的 vocab_size 是一个整数，代表词汇表大小，但 nn.Linear 需要的第一个参数（输入维度）和第二个参数（输出维度）都应该是整数。显然，您想在这里构建一个线性层作为最后的输出层，将隐藏状态映射到词汇表大小的输出概率分布上。

修正的办法是将这个变量名改为其他名称以避免与 vocab_size 整数混淆，并赋予正确的输入维度，假设这里输入维度就是 RNN 的隐藏层大小，可以修改为：

self.output_layer = nn.Linear(self.hidden_size, vocab_size)

然后，在 forward 函数里，将原来使用 vocab_size 的地方改为 self.output_layer：

output = self.output_layer(y.view(-1, y.shape[-1]))

因此，完整的 RNNModel 类定义应修改为：

class RNNModel(nn.Module): def __init__(self, rnn_layer, vocab_size): super(RNNModel, self).__init__() self.rnn = rnn_layer self.hidden_size = rnn_layer.hidden_size * (2 if rnn_layer.bidirectional else 1) self.output_layer = nn.Linear(self.hidden_size, vocab_size) # 修改这里 self.state = None def forward(self, inputs, state): x = d2l.to_onehot(inputs, vocab_size) # 假设 to_onehot 函数正确处理了 one-hot 编码 y, self.state = self.rnn(torch.stack(x), state) output = self.output_layer(y.view(-1, y.shape[-1])) # 修改这里 return output, self.state

请注意，根据您的代码上下文，d2l.to_onehot(inputs, vocab_size) 这部分可能也需要确保其正确性，因为通常循环神经网络模型不需要对输入数据进行 one-hot 编码，而是直接传入索引值即可。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

深度学习卷积神经网络 深度学习神经网络
2021-05-29 01:48

回答 2 已采纳 {{2,3,4},{3,4,5},{4,5,6}}
深度学习为什么需要图神经网络？深度学习神经网络
2022-10-21 11:36

回答 1 已采纳随着机器学习、深度学习的发展，语音、图像、自然语言处理逐渐取得了很大的突破，然而语音、图像、文本都是很简单的序列或者网格数据，是很结构化的数据，深度学习很善于处理该种类型的数据。然而现实世界中并不是所
现在神经网络与深度学习的发展怎么样深度学习神经网络
2022-10-18 17:01

回答 1 已采纳很火热
python神经网络编程代码,python神经网络编程豆瓣
2022-08-20 14:44

「已注销」的博客阶段二：Python高级编程和数据库开发Python全栈开发与人工智能之Python高级编程和数据库开发知识学习内容包括：面向对象开发、Socket网络编程、线程、进程、队列、IO多路模型、Mysql数据库开发等。
基于python做神经网络、深度学习需不需要自己写代码，需要写到什么程度呢？ python 有问必答深度学习神经网络
2022-05-16 13:12

回答 6 已采纳的确是很多第三方库给你去用，直接import就可以，但是问题是，如果目前出了问题，第三方库无法满足你的需求，你需要进一步修改代码你怎么办？而且这个问题在实际应用中是经常碰见的，这时候你会不会神经网络基
关于深度学习的网络前沿 python 深度学习神经网络
2023-03-09 22:39

回答 3 已采纳该回答引用ChatGPT 在医学图像分割领域，目前最先进的语义分割神经网络包括： U-Net：U-Net是一种全卷积网络，用于医学图像分割，它在2015年被提出。它的网络结构包含了一个下采样路径和
【深度学习】如何绘制网络模型图深度学习神经网络
2023-03-20 15:19

回答 2 已采纳请看👉 ：如何绘制深度学习模型图？
深度学习吴恩达老师（一）：神经网络和深度学习(Neural Networks and Deep Learning)：内容整理 + 习题分享
2021-11-16 17:03

是Dream呀的博客 神经网络和深度学习Neural Networks and Deep Learning：1.1 欢迎(Welcome)1.2 什么是神经网络？(What is a Neural Network)1.3 神经网络的监督学习(Supervised Learning with Neural Networks)1.4 为什么深度学习会...
深度学习修改通道数从1到2 python 深度学习神经网络
2022-10-07 16:51

回答 2 已采纳大概就是实际的输入是[64,1,28,28],就是64张分辨率为28×28的单通道图像，但是你的卷积核是[64,2,3,3]，也就是卷积核是有两个通道的，网络期望你输入两通道的图像，而不是单通道。可以
tensorflow2.x 深度学习 使用相同梯度进行梯度下降的两个相同神经网络，得到的结果却不同 tensorflow 深度学习神经网络
2021-03-12 00:07

回答 2 已采纳在上面给的代码的第164行处插入 optimizer = optimizers.Adam(lr=1e-4) 重新初始化optimizer，这样两个模型训练后的测试结果就一样了，望采纳
深度学习模型:训练出来的F1值比准确率高，写正常吗深度学习神经网络自然语言处理
2023-04-03 17:11

回答 2 已采纳准确率和F1值都是常用的模型性能指标，通常用于评估分类问题的性能。准确率是正确分类的样本数与总样本数之比，而F1值是模型预测精度和召回率的加权平均值。F1值的计算方式将模型的准确率和召回率同时考虑，因
ChatGPT：深度学习和机器学习的知识桥梁
2023-09-06 14:11

艾派森的博客 ChatGPT，即“Chat Generative Pre-trained Transformer”，是一种基于深度学习的自然语言处理模型，由OpenAI开发。这个模型的独特之处在于它的能力，可以生成自然、流畅的文本，仿佛是来自一个有思维的聊天伙伴。...
深度学习刚入门，用hiddenlayer可视化保存神经网络时候出差不知道为什么 pytorch 深度学习神经网络
2022-02-09 20:37

回答 1 已采纳 pip install graphviz
自然语言处理中的前馈神经网络
2024-06-22 09:31

lzx618的博客自然语言处理（NLP）作为人工智能领域的...随着深度学习技术的兴起，前馈神经网络（Feedforward Neural Networks，FNN）在自然语言处理中发挥着越来越重要的作用。本文旨在介绍前馈神经网络的基本原理和在NLP中的应用。
深度学习基础笔记(MLP+CNN+RNN+Transformer等等)
2022-11-25 11:24

Silentambition的博客感知机+多层感知机+卷积神经网络+循环神经网络+注意力机制等等
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月10日

悬赏问题

¥15 vscode编译ros找不到头文件，cmake.list文件出问题，如何解决？(语言-c++|操作系统-linux)
¥15 通过AT指令控制esp8266发送信息
¥15 有哪些AI工具提供可以通过代码上传EXCEL文件的API接口，并反馈分析结果
¥15 二维装箱算法、矩形排列算法（相关搜索：二维装箱）
¥20 nrf2401上电之后执行特定任务概率性一直处于最大重发状态
¥15 二分图中俩集合中节点数与连边概率的关系
¥20 wordpress如何限制ip访问频率
¥15 自研小游戏，需要后台服务器存储用户数据关卡配置等数据
¥15 请求解答odoo17外发加工某工序的实操方法
¥20 IDEA ssm项目跳转页面报错500

深度学习循环神经网络提问2

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新