深度学习网络中的num_hiddens代表什么，此处为什么是4*num_hiddens？


class BiRNN(nn.Module):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers, **kwargs):
        super(BiRNN, self).__init__(**kwargs)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        # 将bidirectional设置为True获得双向循环神经网络
        self.encoder = nn.LSTM(embed_size, num_hiddens, num_layers, num_layers=num_layers, bidirectional=True)
        self.decoder = nn.Linear(4 * num_hiddens, 2)
     def forward(self, inputs):
       # inputs的形状是（批量大小，时间步数）
       # 因为长短期记忆网络要求其输入的第一个维度是时间维，
       # 所以在获得词元表示之前，输入会被转置。
       # 输出形状为（时间步数，批量大小，词向量维度）
       embeddings = self.embedding(inputs.T)
       self.encoder.flatten_parameters()
       # 返回上一个隐藏层在不同时间步的隐状态，
       # outputs的形状是（时间步数，批量大小，2*隐藏单元数）
       outputs, _ = self.encoder(embeddings)
       # 连结初始和最终时间步的隐状态，作为全连接层的输入，
       # 其形状为（批量大小，4*隐藏单元数）
       encoding = torch.cat((outputs[0], outputs[-1]), dim=1)
       outs = self.decoder(encoding)
       return outs

self.decoder = nn.Linear(4 * num_hiddens, 2)，这个全连接层的input为什么是4*num_hiddens

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱晚乏客游 2022-02-18 09:44
关注
https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html#torch.nn.LSTM

先看下LSTM输出的通道数[seq_length, batch_size, num_directions * hidden_size]，你的双向num_directions =2，所以在18行的时候你的output=[seq_length, batch_size, 2*hidden_size],第21行中使用toch.cat()进行了一次横向拼接,两个2*hidden_size横向拼接不就是4*hidden_size了？

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

深度学习网络中的num_hiddens代表什么，此处为什么是4*num_hiddens？ pytorch 深度学习自然语言处理
2022-02-17 10:49

回答 2 已采纳 https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html#torch.nn.LSTM先看下LSTM输出的通道数[seq_length,
ValueError: num_samples should be a positive integer value, but got num_samples pycharm python 深度学习
2022-09-21 16:37

回答 2 已采纳 self.num_samples 必须是int类型而且必须大于0
Java中 num=num++；语句是什么意思？为什么num++没有被使用？ java
2022-01-16 01:08

回答 2 已采纳按正常赋值语句，num = num++;是从左到右执行的。首先执行的是num++，后跟++说明先运算后赋值。拆开就是num自增，并有一个保留值tnum，运算时用的是保留值tnum。num=num++;
跟着沐神学深度学习-从入门到放弃的第3天(多层感知机实现)
2023-10-28 16:58

yanxiaoyu110的博客至于为什么在多层感知机中加入激活函数，原因是因为，如果没有激活函数，那么多层其实大型的。，我们还需要一个额外的关键要素：在仿射变换之后对每个隐藏单元应用非线性的激活函数。：所谓多层感知机，其实就是将...
机器学习实验中，利用paddle进行波士顿房价猜测，为什么epoch num=50呢 python 人工智能深度学习
2022-04-28 11:17

回答 1 已采纳 EPOCH_NUM你可以理解为训练的次数，次数越多的话，学习的更完全，所以落点更接近，但是EPOCH_NUM过大会导致拟合度下降，这是一个曲线 BATCH_SIZE=10是每次把张量送进去训练的个数，
elastalert 的 num_hits 应该怎么理解？ linux 运维运维开发
2022-07-28 13:22

回答 1 已采纳 elastalert索引中，hits表示规则命中条数；matches表示规则命中条数，并且匹配规则触发告警数量。num_hits表示的是根据filter条件及查询时间段从es返回的记录,而num_ma
for (int num : array)是什么意思？“：”代表什么？ java
2022-09-18 10:54

回答 2 已采纳表示遍历array的每个元素，num是代表每个元素的变量
【动手学深度学习】李沐——循环神经网络
2022-11-04 09:51

FavoriteStar的博客关于李沐老师的【动手学深度学习】课程其中的循环神经网络章节的学习记录，包括完整代码的解释及个人见解。
TypeError: __init__() got an unexpected keyword argument 'num_worker' python pytorch 深度学习
2022-07-16 19:42

回答 3 已采纳是我前面抄错了，把num_worker改为num_workers之后就可以了，但还是不清楚为什么😣
为什么mysqli_stmt_num_rows函数返回0？ mysql php sql
2018-02-11 17:31

回答 1 已采纳 The client has no idea how many rows are in the result until they are fetched. You can make the c
python中num*=-1是什么意思 python
2021-10-31 00:53

回答 1 已采纳 num*=-1，即num=num*(-1)如果num是负数，乘-1之后就变成正数了，所以就取了绝对了；也可以使用num=0-num 有帮助请采纳
《动手学深度学习》task4_2 注意力机制和Seq2seq模型
2020-02-19 19:59

shiinerise的博客系统学习《动手学深度学习》点击这里：《动手学深度学习》task1_1 线性回归《动手学深度学习》...《动手学深度学习》task2_3 循环神经网络基础《动手学深度学习》task3_1 过拟合、欠拟合及其解决方案《动手学...
求助！为什么显示“room_num”未定义？ python
2019-01-16 15:06

回答 1 已采纳给backwards一个参数r_num ``` def backwards(r_num): if r_num == 1: start() elif r_
动手学深度学习-15 注意力机制与Seq2seq模型
2020-03-03 16:41

Xavier学长的博客注意力机制在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的...然而这种结构存在着问题，尤其是RNN机制实际中存在长程梯度消失的问题，对于较长的句子，我们很难寄希望于将输入的序列转化...
《动手学深度学习+PyTorch》3.9多层感知机（MLP）从零开始实现学习笔记
2022-01-18 15:34

稚晖君的小弟的博客书中的代码： num_epochs, lr = 5, 100.0 d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, params, lr) 我没可以发现lr=100.0，前面学习线性拟合时说过学习率不应过大，为什么此处lr这么...
【深度学习-seq2seq模型-附实现机器翻译的核心代码】
2023-08-28 20:27

y_dd的博客 深度学习 深度学习-seq2seq模型什么是seq2seq模型应用场景架构编码器解码器训练 & 预测损失预测评估BLEU BELU背后的数学意义模型参考论文 深度学习-seq2seq模型本文的网络架构模型参考 Sutskever et al.,...
Transformer模型简要分析（下篇）（代码来源D2l）
2023-10-14 17:30

寒秋夜未央的博客自注意力和位置编码考虑一个事实：在深度学习中，经常使用卷积神经网络（CNN）或循环神经网络（RNN）对序列进行编码。想象一下，有了注意力机制之后，我们将词元序列输入注意力池化中，以便同一组词元同时充当...
PyTorch学习系列教程：三大神经网络在股票数据集上的实战
2024-02-09 11:45

AAI机器之心的博客 DNN、CNN和RNN是深度学习中的三大经典神经网络，分别有各自的适用场景。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月17日

悬赏问题

¥15 关于#Java#的问题，如何解决？
¥15 加热介质是液体，换热器壳侧导热系数和总的导热系数怎么算
¥15 想问一下树莓派接上显示屏后出现如图所示画面，是什么问题导致的
¥100 嵌入式系统基于PIC16F882和热敏电阻的数字温度计
¥15 cmd cl 0x000007b
¥20 BAPI_PR_CHANGE how to add account assignment information for service line
¥500 火焰左右视图、视差（基于双目相机）
¥100 set_link_state
¥15 虚幻5 UE美术毛发渲染
¥15 CVRP 图论物流运输优化

深度学习网络中的num_hiddens代表什么，此处为什么是4*num_hiddens？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新