神经网络模型训练集和验证集的准确率一直不变

遇到的问题：
在使用BiLSTM+Multi-head-Attention模型进行训练，发现训练集和验证集的准确率一直不变。
相关代码：

class BiLSTM_Multi_head_Attention(nn.Module):

    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim,pretrained_weight, update_w2v,max_sen_len,dropout=0.2):
        super().__init__()
        self.embedding = nn.Embedding.from_pretrained(pretrained_weight)  # 读取预训练好的参数  [5798,50]
        self.embedding.weight.requires_grad = update_w2v  # 控制加载的预训练模型在训练中参数是否更新
        # BiLSTM
        self.lstm = nn.LSTM(
            embedding_dim,
            hidden_dim,
            num_layers=2,
            bidirectional=True,
            batch_first=True
        )
        # Multihead attention:
        self.mha = nn.MultiheadAttention(2 * hidden_dim, num_heads=8)
        # Flatten into [batch_size, 2*N_HIDDEN*N_SEQ]
        self.flatten = nn.Flatten()
        # Fully connected classifer
        self.fc1 = nn.Linear( max_sen_len*2 * hidden_dim, 1024)  # As bidirectional
        self.dropout = nn.Dropout(dropout)
        self.fc2 = nn.Linear(1024, 256)
        self.dropout = nn.Dropout(dropout)
        self.fc5 = nn.Linear(256, output_dim)

    def forward(self, text):
        # Embedding of the given "text" represented as a vector
        embedded = self.embedding(text)  # [batch size, sent len, emb dim]
        # LSTM output
        lstm_output, (ht, cell) = self.lstm(embedded)  # [batch size, sent len, hid dim], [ batch size, 1, hid dim]
        # Compute attention:
        attn_output, attn_output_weights = self.mha(lstm_output, lstm_output, lstm_output)
        # Flatten:
        x = self.flatten(attn_output)
        # Classifer:
        # Layer 1
        x = self.fc1(x)
        x = F.softmax(x,dim=1)
        # Dropout
        x = self.dropout(x)
        # Layer 2
        x = self.fc2(x)
        x = F.softmax(x,dim=1)
        # Output layer
        output = self.fc5(x)


        return output  

def train(train_dataloader, model, device, epoches, lr):
    # 模型为训练模式
    model.train()
    # 将模型转化到gpu上
    model = model.to(device)
    print(model)
    # 优化器
    optimizer = optim.Adam(model.parameters(), lr=lr)
    # 交叉熵损失函数
    criterion = nn.CrossEntropyLoss()
    best_acc = 0.85
    # 一个epoch可以认为是一次训练循环
    for epoch in range(epoches):
        train_loss = 0.0
        correct = 0
        total = 0
        # tqdm用在dataloader上其实是对每个batch和batch总数做的进度条
        train_dataloader = tqdm.tqdm(train_dataloader)
        # 遍历每个batch size数据
        for i, data_ in (enumerate(train_dataloader)):
            # 梯度清零
            optimizer.zero_grad()
            input_, target = data_[1], data_[2]
            # 将数据类型转化为整数
            input_ = input_.type(torch.LongTensor)
            target = target.type(torch.LongTensor)
            # 将数据转换到gpu上
            input_ = input_.to(device)
            target = target.to(device)
            # 前向传播
            output = model(input_)
            # 扩充维度
            target = target.squeeze(1)
            # 损失
            loss = criterion(output, target)
            # 反向传播
            loss.backward()
            # 梯度更新
            optimizer.step()
            train_loss += loss.item()
            _, predicted = torch.max(output, 1)
            # print(predicted.shape)
            # 计数
            total += target.size(0)  # 此处的size()类似numpy的shape: np.shape(train_images)[0]
            # print(target.shape)
            # 计算预测正确的个数
            correct += (predicted == target).sum().item()
            acc = 100 * correct / total
            # 评价指标F1、Recall
            F1 = f1_score(target.cpu(), predicted.cpu(), average='weighted')
            Recall = recall_score(target.cpu(), predicted.cpu(), average='micro')
            postfix = {'train_loss: {:.5f},train_acc:{:.3f}%'
                       ',F1: {:.3f}%,Recall:{:.3f}%'.format(train_loss / (i + 1),
                                                     100 * correct / total, 100 * F1, 100 * Recall)}
            # tqdm pbar.set_postfix：设置训练时的输出
            train_dataloader.set_postfix(log=postfix)

        # 计算验证集的准确率
        acc = val_accuary(model, val_dataloader, device, criterion)
        # 当准确率提升时，保存模型。
        if acc > best_acc:
            best_acc = acc
            if os.path.exists(Config.model_state_dict_path) == False:
                os.mkdir(Config.model_state_dict_path)
            save_path = 'HA/{}_epoch_{}.pkl'.format("sen_model", epoch)
            print(os.path.join(Config.model_state_dict_path, save_path))
            torch.save(model, os.path.join(Config.model_state_dict_path, save_path))
        # 恢复到训练模式
        model.train()

运行结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
筱萱儿 2022-07-18 16:26
关注
求解答

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

神经网络训练集损失值降为0而且一直保持 python 深度学习神经网络
2022-02-25 12:13

回答 1 已采纳（1）你没有给出模型，数据情况，谁也分析不了（2）训练误差小，测试误差大，这是典型的过拟合（3）损失值降为 0，还是下降很快，接近于 0，这是完全不同的，从问题描述和图中看不出来
同一数据集划分不同类别，会影响神经网络分类准确率吗人工智能深度学习神经网络
2023-03-02 22:15

回答 1 已采纳基于Monster 组和GPT的调写：假设两个 VGG16 网络使用不同的训练集进行训练，其中训练集的类别不完全相同。虽然训练集中的“人”和“狗”类别相同，但其中一个网络在训练集中包含更多的猫类别。
请问图中是什么情况，训练集和测试集准确率、loss值变化不大 python tensorflow 深度学习神经网络自然语言处理
2020-05-07 13:18

回答 3 已采纳验证的正确率刚开始就接近1？你用的是一个已经训练好的模型吗？
神经网络训练准确率不变,神经网络训练误差大
2022-10-04 14:48

阳阳2013哈哈的博客正常模型的准确度取决于你的样本质量和数量样本最好能涵盖所有因子的取值范围，比如说样本中因子A取值在0-100之间，如果测试数据因子A取值为200，就可能造成模型预测偏差太大。BP神经网络matlab训练偶尔会有一次...
BP神经网络的训练集和测试集可以相同吗？如图中，floor函数为什么要乘以0.8呢？人工智能数据挖掘机器学习神经网络
2020-03-10 11:08

回答 2 已采纳 训练集和测试集可以相同这个问题就好比如果你是一个老师，你出考卷的时候，可以和你上课讲的题目一样么。乘以0.8就是80%训练20%测试
验证集的loss和准确率变动大 pytorch 深度学习神经网络
2022-02-05 14:50

回答 2 已采纳少训练上一些轮或者提前终止，要不你就在训练集里加上一些错误的例子
神经网络训练集添加高斯噪声 python 开发语言神经网络
2021-02-01 11:00

回答 1 已采纳 1，如果网路中使用了normalization层，则不需要重新归一化； 2，如果不放心，可以使用“截断”，让小于0的变成0，大于1的变成1即可。
【深度学习】【卷积神经网络CNN】验证集准确率val_acc保持不变？过拟合？早停earlystoping的使用。
2020-05-09 18:21

王宜宝很牛的博客 2020/5/9 日记录 ...2. 随着epoch迭代，验证集准确率val_acc保持不变了！这不就是传说中过拟合的征兆吗？引用另一篇博客的话：“我们之前把数据集切分为训练集，测试集和验证集。验证集就是用来检测模型ove
在训练网络的过程中测试集的正确率过低 python 深度学习神经网络
2021-04-03 13:35

回答 1 已采纳问题分析：很有可能是过拟合了！解决方案：（1）增加Dropout，随机断开神经网络之间的连接，减少每次训练时实际参与计算的模型的参数量，从而减少了模型的实际容量，来防止过拟合。（
为什么我改变图像通道会导致神经网络分类准确率下降？人工智能深度学习神经网络
2021-02-25 16:07

回答 2 已采纳这证明经过dct变换、局部二值模式处理后，损失了部分有效图像特征；或者灰度图、二值处理图、dct图在三个通道对应分量上的特征无法组合成更优图像特征。这在神经网络调参过程中是很常见的，明明觉得处理一下分
训练集和测试集比例设置问题 python 人工智能神经网络
2021-11-11 11:34

回答 2 已采纳单纯的增加训练集 理论上因为泛化性更强了，更多情况下测试结果会有提高，实际场景中一般8：2 、 9：1都有的，这种一般都可以自己调控的训练时候可以都运行下，还有交叉验证啥的只有去跑模型对比才知道
训练集loss下降，准确率高，测试集loss不变，准确率不变。
2023-10-15 21:45

万里长征第一步的博客测试集loss不变，准确率不变。以上情况在某种程度上相当于模型不学习了，(只有一组参数，学习完不在学习)epoch，在训练集得到的参数，应用到测试集上。不能等训练集结束再将参数应用到测试集上。在对数据集进行训练...
如何将训练好的BP神经网络模型保存并可以在其他py文件中直接调用？ python 有问必答机器学习神经网络
2021-06-09 10:53

回答 2 已采纳这个需要建立字典封装起来
神经网络训练准确率不变,神经网络越训练越差
2022-08-30 13:25

快乐的小蓝猫的博客 神经网络每次结果不同是因为初始化的权值和阈值是随机的,因为每次的结果不一样，才有可能找到比较理想的结果,找到比较好的结果后，用命令savefilenamenet;看来楼主是刚开始学习神经网络的，推荐一些资料给楼主：神经...
使用resnet， inception3进行fine-tune出现训练集准确率很高但验证集很低的问题
2020-10-03 21:49

datayx的博客向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayx最近用keras跑基于resnet50，inception3的一些迁移学习的实验，遇...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月18日

悬赏问题

¥500 把面具戴到人脸上，请大家贡献智慧
¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥15 各位帮我看看如何写代码，打出来的图形要和如下图呈现的一样，急
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境
¥30 关于#java#的问题，请各位专家解答！
¥30 vue+element根据数据循环生成多个table，如何实现最后一列平均分合并
¥20 pcf8563时钟芯片不启振
¥20 pip2.40更新pip2.43时报错

神经网络模型训练集和验证集的准确率一直不变

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新