LSTM训练时使用训练集进行测试准确率异常

为什么我训练过程在训练一个LSTM神经网络的时候，train_accuracy和val_accuracy已经达到了0.95，训练完成以后用得到的东西检测我训练用的训练集的时侯，发现准确率反而下降至0.55.按道理如果是过拟合的话不应该很高吗?

这个是训练用的文件


import sys
sys.path.append('../input')

import torch
import torch.optim as optim
import torch.nn as nn
from bighomework.bighomework.data_utils import load_data, TextDataset, collate_fn
from bighomework.bighomework.model import LSTMClassifier
from torch.utils.data import DataLoader
from torchtext.vocab import build_vocab_from_iterator
from bighomework.bighomework.draw_picture import draw_val_accuracies,draw_train_accuracies,draw_train_losses,draw_val_losses
from sklearn.model_selection import train_test_split
import pickle

# 定义超参数
embedding_size = 100
hidden_size = 256
output_size = 2
num_layers = 2
dropout = 0.5
batch_size = 128
epochs = 3
learning_rate = 0.001

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f'Using device: {device}')

# 导入数据并进行分词
train_texts, train_labels = load_data('/kaggle/input/datasets4/datasets4/full_ai.txt','/kaggle/input/datasets4/datasets4/full_human.txt')

# 使用简单的空格分词
def tokenizer(text):
    return text.split()

# 构建词汇表
def yield_tokens(data_iter, tokenizer):
    for text in data_iter:
        yield tokenizer(text)

vocab = build_vocab_from_iterator(yield_tokens(full_texts, tokenizer), specials=["<unk>"])
vocab.set_default_index(vocab["<unk>"])
vocab_size = len(vocab)

with open('/kaggle/working/vocab.pkl', 'wb') as f:
    pickle.dump(vocab, f)

# 划分训练集和验证集
train_texts, val_texts, train_labels, val_labels = train_test_split(train_texts, train_labels, test_size=0.2, random_state=42)

# 创建训练集和验证集的数据集和数据加载器
train_dataset = TextDataset(train_texts, train_labels, vocab, tokenizer)
train_loader = DataLoader(train_dataset, batch_size=batch_size, collate_fn=collate_fn)

val_dataset = TextDataset(val_texts, val_labels, vocab, tokenizer)
val_loader = DataLoader(val_dataset, batch_size=batch_size, collate_fn=collate_fn)
# 导入模型
model = LSTMClassifier(vocab_size, embedding_size, hidden_size, output_size, num_layers, dropout).to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# 训练和验证
train_losses = []
train_accuracies = []
val_losses = []
val_accuracies = []

print(f'Number of batches per epoch: {len(train_loader)}')
for epoch in range(epochs):
    # 训练阶段
    model.train()
    epoch_train_loss = 0
    correct_train_predictions = 0
    total_train_samples = 0
    i=0
    for texts, labels, lengths in train_loader:
 #       print("train:", i+1, "of", len(train_loader), "batches")
        texts, labels, lengths = texts.to(device), labels.to(device), lengths.to(device)
        optimizer.zero_grad() # 清除之前计算的梯度。
        nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)  # 对模型的所有参数进行梯度裁剪，防止梯度爆炸。
        predictions = model(texts, lengths).squeeze(1)   # 使用模型对输入的文本进行预测    
        loss = criterion(predictions, labels) # 计算预测结果与实际标签之间的损失。
        loss.backward()     # 反向传播，计算梯度
        optimizer.step()     # 更新模型参数。  
        epoch_train_loss += loss.item()       
        _, predicted_labels = torch.max(predictions, 1)
        correct_train_predictions += (predicted_labels == labels).sum().item()
        total_train_samples += labels.size(0)
        i+=1
    avg_train_loss = epoch_train_loss / len(train_loader)
    train_accuracy = correct_train_predictions / total_train_samples
    train_losses.append(avg_train_loss)
    train_accuracies.append(train_accuracy)
    
    print(f'Epoch {epoch + 1}/{epochs}, Train Loss: {avg_train_loss:.4f}, Train Accuracy: {train_accuracy:.4f}')
    
    # 验证阶段
    model.eval()
    epoch_val_loss = 0
    correct_val_predictions = 0
    total_val_samples = 0

    with torch.no_grad():
        for texts, labels, lengths in val_loader:
            texts, labels, lengths = texts.to(device), labels.to(device), lengths.to(device)
            predictions = model(texts, lengths).squeeze(1)          
            loss = criterion(predictions, labels)         
            epoch_val_loss += loss.item()          
            _, predicted_labels = torch.max(predictions, 1)
            correct_val_predictions += (predicted_labels == labels).sum().item()
            total_val_samples += labels.size(0)   
    avg_val_loss = epoch_val_loss / len(val_loader)
    val_accuracy = correct_val_predictions / total_val_samples
    val_losses.append(avg_val_loss)
    val_accuracies.append(val_accuracy)
    
    print(f'Epoch {epoch + 1}/{epochs}, Val Loss: {avg_val_loss:.4f}, Val Accuracy: {val_accuracy:.4f}')

# 保存模型
torch.save(model.state_dict(), '/kaggle/working/lstm_classifier6.pth')

# 绘制损失和准确率曲线
draw_train_losses(epochs, train_losses)
draw_val_losses(epochs,val_losses)
draw_train_accuracies(epochs, train_accuracies)
draw_val_accuracies(epochs,val_accuracies)

这个是检测用的文件

import sys
sys.path.append('../input')

import torch
from bighomework.bighomework.model import LSTMClassifier
from bighomework.bighomework.data_utils import TextDataset, collate_fn, load_data
from torch.utils.data import DataLoader
from torchtext.vocab import build_vocab_from_iterator
import pandas as pd
import numpy as np
import pickle

# 定义超参数
embedding_size = 100
hidden_size = 256
output_size = 2
num_layers = 2
dropout = 0.5
batch_size = 128
epochs = 50
learning_rate = 0.001

# 检查是否有可用的GPU设备
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f'Using device: {device}')

# 使用简单的空格分词
def tokenizer(text):
    return text.split()

# 直接生成分词后的迭代器
def yield_tokens(data_iter, tokenizer):
    for text in data_iter:
        yield tokenizer(text)

def load_vocab(vocab_path):
    with open(vocab_path, 'rb') as f:
        vocab = pickle.load(f)
    return vocab

# 加载模型
def load_model(vocab_size, embedding_size, hidden_size, output_size, num_layers, dropout, model_path):
    model = LSTMClassifier(vocab_size, embedding_size, hidden_size, output_size, num_layers, dropout)
    model.load_state_dict(torch.load(model_path))
    model.to(device)  # 将模型移动到GPU上
    return model

def detect_AI(text, model, vocab, tokenizer):
    # 对文本进行分词和编码
    tokens = tokenizer(text)
    indexed = [vocab[token] for token in tokens]
    tensor = torch.LongTensor(indexed).to(device)  # 将数据移动到GPU上
    tensor = tensor.unsqueeze(0)  # 添加 batch 维度

    # 使用模型进行预测
    model.eval()
    with torch.no_grad():
        output = model(tensor, torch.tensor([len(tensor)], device=device))  # 确保长度tensor也在同样设备上
    
    # 获取预测结果概率
    probabilities = torch.nn.functional.softmax(output, dim=1)[0]
    
    return probabilities[0]

if __name__ == "__main__":
    vocab_path = "/kaggle/working/vocab2.pkl"  # 替换为实际的路径
    vocab = load_vocab(vocab_path)
    vocab_size = len(vocab)
    # 加载模型
    model_path = "/kaggle/working/lstm_classifier8.pth"
    model = load_model(vocab_size, embedding_size, hidden_size, output_size, num_layers, dropout, model_path)

    with open('/kaggle/input/datasets4/datasets4/test_ai.txt','r',encoding='utf-8') as file1,open('/kaggle/input/datasets4/datasets4/test_human.txt','r',encoding='utf-8') as file2:
        ai_lines=file1.readlines()
        human_lines=file2.readlines()
        i,score=0,0
        for line in ai_lines:
            res=detect_AI(line,model,vocab,tokenizer)
            if res>0.5:
                score+=1
            i+=1
        print(i,score)
        j,right=0,0
        for line in human_lines:
            res=detect_AI(line,model,vocab,tokenizer)
            if res<0.5:
                right+=1
            j+=1
        print(j,right)
        print("综合准确率：",(right+score)/(i+j))
    
    
    with open('/kaggle/input/datasets4/datasets4/train_ai.txt','r',encoding='utf-8') as file1,open('/kaggle/input/datasets4/datasets4/train_human.txt','r',encoding='utf-8') as file2:
        ai_lines=file1.readlines()
        human_lines=file2.readlines()
        i,score=0,0
        for line in ai_lines:
            res=detect_AI(line,model,vocab,tokenizer)
            if res>0.5:
                score+=1
            i+=1
        print(i,score)
        j,right=0,0
        for line in human_lines:
            res=detect_AI(line,model,vocab,tokenizer)
            if res<0.5:
                right+=1
            j+=1
        print(j,right)
        print("综合准确率：",(right+score)/(i+j))
    
    # 读取 test.csv 文件
    test_df = pd.read_csv("/kaggle/input/llm-detect-ai-generated-text/test_essays.csv")
    
    results = []
    for index, row in test_df.iterrows():
        text = row['text']
        result = detect_AI(text, model, vocab, tokenizer)
        results.append(result)
    
    # 将张量移动到 CPU 并转换为 NumPy 数组
    results_np = [tensor.cpu().numpy() for tensor in results]

    # 假设 'test_df' 是包含 'id' 列的 DataFrame
    submission_df = pd.DataFrame({'id': test_df['id'], 'label': results_np})

    # 写入 CSV 文件
    submission_df.to_csv("/kaggle/working/submission.csv", index=False)

    print("结果已保存到 submission.csv")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-06-25 01:25
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

从你提供的信息来看，你的LSTM模型在训练集和验证集上都达到了0.95的准确率，但在测试训练集时准确率下降到了0.55，这确实是一个非常不寻常的现象。通常，过拟合会导致模型在训练集上表现非常好，但在新数据上表现不佳。然而，你的情况似乎是模型在训练集上的表现也不佳。以下是一些可能的原因和建议：

数据预处理不一致：确保训练、验证和测试使用的数据经过了相同的预处理步骤。如果数据在不同阶段的处理方式不同，可能会导致模型表现不佳。

模型评估方式：检查你的模型评估代码，确保在评估时使用了正确的方法。例如，确保在评估时没有使用model.train()而是使用了model.eval()，并且在计算准确率时没有使用梯度下降。

模型保存和加载：确保模型在训练完成后正确保存，并且在测试时正确加载了模型的权重。检查torch.save和torch.load的使用是否正确。

批次大小和数据分批：检查你的数据加载器是否正确地将数据分批，特别是在测试时。如果批次大小或数据分批的方式与训练时不同，可能会影响模型的表现。

评估指标：确保你使用的评估指标是正确的。在LSTM模型中，通常使用分类准确率作为评估指标，但如果你的任务是回归或其他类型的预测，可能需要使用不同的指标。

模型复杂性：如果模型过于复杂，可能会导致在训练集上的过拟合，但在测试集上表现不佳。尝试减少模型的复杂性，比如减少层数或神经元数量。

数据集的分布：检查训练集和测试集的数据分布是否一致。如果分布差异很大，模型可能无法很好地泛化到测试集。

随机性因素：神经网络训练过程中存在一定的随机性，比如权重初始化和数据洗牌。尝试重新训练模型几次，看看问题是否仍然存在。

代码错误：仔细检查你的代码，特别是数据处理和模型预测的部分，以确保没有逻辑错误或实现错误。

调试和日志记录：增加更多的日志记录和调试语句，以便更好地理解模型在训练和测试过程中的行为。

如果上述建议都不能解决问题，你可能需要更深入地分析模型的行为，比如通过可视化训练过程中的损失和准确率曲线，或者使用模型解释性工具来理解模型的预测。

最后，由于你没有提供具体的参考链接，我无法提供具体的参考链接。但是，上述建议是基于一般的神经网络训练和调试实践。希望这些建议能帮助你解决问题。如果需要进一步的帮助，请随时提问。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

LSTM模型可以训练怎样的数据集？人工智能深度学习神经网络自然语言处理
2020-04-18 17:08

回答 1 已采纳 LSTM主要用来学习序列，并且序列的变化的影响因子和序列本身有关或者周期性波动。比如说文本预测，每天每周每年的销量别的也可以学，但是效果未必很好。
模型训练准确率很低且不变 python tensorflow 深度学习
2023-03-15 21:37

回答 1 已采纳 lstm要控制下step，试试看不同的激活函数和dropout层，特别是用 relu
使用Keras编写的LSTM，训练时出现loss: nan - val_loss: nan，该如何调整？ keras lstm 有问必答深度学习
2022-05-03 18:40

回答 2 已采纳原数据第一列是时间形式的20220503这种，在读数据之后进行下面操作，你的数据是简单的1 2 34这种，数据可能在处理过程丢失或者变成nan了，你可以一步步看看每次处理后当前的数据现在是什么格式 d
使用 Python 的 LSTM 进行股市预测
2024-04-08 09:26

无水先生的博客在本教程中，您将了解如何使用...分割训练测试数据并执行一些数据标准化；回顾并应用一些可用于一步预测的平均技术；激发并简要讨论LSTM 模型，因为它可以提前预测不止一步；利用当前数据预测和可视化未来股市
关于#lstm#的问题：lstm训练，padding 补0后,模型不收敛 lstm pytorch 时序数据库
2022-07-20 18:43

回答 2 已采纳直接划分60s滑动窗口不行嘛
LSTM的loss不断下降，但train和test的准确率始终在0.5左右 tensorflow 机器学习深度学习神经网络自然语言处理
2019-07-19 10:18

回答 3 已采纳 LSTM是用来做文本生成，做垃圾邮件识别似乎没有什么道理。你的loss用的可能是MSE，平方误差对于大的误差的减小比较敏感，但是对于最终的分类没有什么帮助，就导致acc没有什么变化loss一直下降
如何使用LSTM和Transform等经典模型 lstm transformer 自然语言处理
2022-10-12 20:31

回答 1 已采纳建议换pytorch，信我，tensorflow坑巨多，还有各个版本之间的api兼容性，cuda兼容性巨差，旧版本的代码（1.08-1.15）在新版本（2.x）基本上跑不动,而一些旧的代码基本上都是1
一个使用LSTM模型进行时间序列预测的Python示例代码.pdf
2023-11-25 16:16

在本文中，我们将深入探讨如何使用LSTM（长短时记忆网络）模型进行时间序列预测，特别是在Python编程环境中。时间序列预测是一种重要的机器学习任务，它用于预测一系列按时间顺序排列的数据点，例如股票价格、天气...
请问各位前辈：LSTM如何使用多个时间序列（比如30组0秒—2000秒的数据）的数据进行训练？ tensorflow 深度学习
2019-06-11 10:10

回答 2 已采纳首先对数据进行预处理，把它们统一成相同时间和时间间隔的多维数据。不同数据时间间隔不同的话，可以采用插值（稀疏的数据）或者多点求平均（对于致密的数据）。
无编程基础如何学习LSTM lstm rnn 神经网络
2022-01-27 14:51

回答 1 已采纳 1、因为未接触编程，所以有必要掌握至少一门编程语言。考虑到从事AI相关研究，建议学习Python，其次是C++；2、学习Pytorch框架，其有Python和C++接口，根据你学习的语言决定；3、学习
请问一下LSTM长短时记忆网络可以用哪个软件编程呢？机器学习深度学习神经网络
2022-03-17 10:44

回答 1 已采纳 LSTM只是一个循环神经网络模型，市面上的各种深度学习框架都封装了的，你找个框架调API就行了，例如Pytorch和Tensorflow，Pytorch编程更小白一点。
深层神经网络编程题数据集
2023-05-10 10:28

8. **实例与教程**：为了便于学习，数据集可能包含解决特定问题的实例，如图像分类、语义分析或机器翻译，这些实例会详细说明如何使用提供的代码和数据进行训练和评估。 9. **数据增强**：为了提高模型的泛化能力，...
LSTM模型如何进行新数据的预测？ python 人工智能机器学习深度学习神经网络
2019-07-04 15:21

回答 2 已采纳创建一个预测数组，每预测一个Y就往数组里放一个，同时更新你用来预测的自变量X数组，剔除最早的X，把预测值加入到X里，依次往后预测
基于LSTM的加密流量分类检测内含数据集以及论文.zip
2024-03-25 10:54

标题中的“基于LSTM的加密流量分类检测内含数据集以及论文”表明，这个压缩包包含了一项研究工作，该工作应用了长短时记忆网络（LSTM）来对加密网络流量进行分类和检测。LSTM是一种特殊的循环神经网络（RNN），在...
神经网络训练集准确率低,神经网络训练结果分析
2022-10-07 22:42

aifans_bert的博客就是把样本数据分为训练集和测试集，训练集用来训练神经网络，测试集用来验证模型。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月25日

悬赏问题

¥15 Windows Script Host 无法找到脚本文件"C:\ProgramData\Player800\Cotrl.vbs”
¥15 matlab自定义损失函数
¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图

LSTM训练时使用训练集进行测试准确率异常

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新