lstm模型做情感分析

用深度学习lstm模型做两类微博文本数据的情感分析，模型训练时为什么准确率一直在50%上下波动，损失值在0.69？下面是定义的模型：

class SentimentNet(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim, dropout, pad_idx):
        super(SentimentNet, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx=pad_idx)
         self.lstm = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_dim)
        self.dropout = nn.Dropout(dropout)

    def forward(self, text, hidden):
        embedded = self.embedding(text)
        lstm_output, hidden = self.lstm(embedded, hidden)
        avg_pool = lstm_output.mean(dim=1) 
        out = self.dropout(avg_pool)
        out = self.fc(out)
        sig_out = torch.sigmoid(out)
        return sig_out, hidden

    def init_hidden(self, batch_size):
        weight = next(self.parameters()).data
        hidden = (weight.new(1, batch_size, self.lstm.hidden_size).zero_(),
                  weight.new(1, batch_size, self.lstm.hidden_size).zero_())
        return hidden
def load_pretrained_embeddings(self, word2vec_model, word2idx):
        with open('word2idx.json', 'r', encoding='utf-8') as f:
            word2idx = json.load(f)
        pretrained_weights = torch.zeros(len(word2idx), self.embedding.embedding_dim)
        for idx, word in word2idx.items():
            word = word2idx.get(word)
            if word in word2vec_model:
                pretrained_weights[idx, :] = torch.from_numpy(word2vec_model[word])
        self.embedding.weight.data.copy_(pretrained_weights)
        self.embedding.weight.requires_grad = False

**以下是做的数据处理部分：**


# 1. 读取数据
df = pd.read_csv('data/raw_data/weibo_senti_100k.csv')

# 2. 去除缺失值和重复数据
df.dropna(inplace=True)  # 删除包含NaN的行
df.drop_duplicates(inplace=True)  # 删除重复行

# 2. 文本清洗
def clean_text(text):
    # 去除HTML标签（如果有的话，可以使用正则表达式或第三方库如BeautifulSoup）
    text = re.sub('<[^>]*>', '', text)
    # 去除特殊字符和标点符号（可以自定义需要保留的字符）
    text = re.sub(r'[^\u4e00-\u9fa5\w\s]', '', text)  # 只保留中文字符、字母、数字和空格
    # 去除多余空格和换行符
    text = text.replace('\n', '').replace('\r', '').replace('  ', ' ').strip()
    if '广告' in text or '推销' in text:
        return None
    return text


df['review'] = df['review'].apply(clean_text)
df = df.dropna(subset=['review'])  # 再次删除因为清洗而出现的NaN值

# 加载停用词列表
with open('data/tool/stoplist.txt', 'r', encoding='utf-8') as f:
    stopwords = set(f.read().splitlines())
# 去除停用词的函数
def remove_stopwords(text):
    words = [word for word in jieba.cut(text) if word not in stopwords]
    return words

df['review'] = df['review'].apply(remove_stopwords)


# 4. 构建词汇表
max_words = 3000  # 假设我们只保留最常见的3000个词
tokenizer = Tokenizer(num_words=max_words, filters='')  # filters='' 是为了防止jieba分词后的空格被过滤掉
tokenizer.fit_on_texts(df['review'].apply(lambda x: ' '.join(x)))

# 5. 文本数值化
word_index = tokenizer.word_index
sequences = tokenizer.texts_to_sequences(df['review'].apply(lambda x: ' '.join(x)))

# 6. 序列填充或截断
max_sequence_length = 64  # 假设所有文本序列都将被截断或填充到这个长度
padded_sequences = pad_sequences(sequences, maxlen=max_sequence_length)

texts = np.array(padded_sequences)
labels = np.array(df['label'])

# 保存到文件
 np.save('data/npy_data/processed_texts.npy', texts)
np.save('data/npy_data/processed_labels.npy', labels)

# 已经下载了Word2Vec模型
word2vec_model = KeyedVectors.load_word2vec_format('path/word2vec/word2vec_779845.bin', binary=True)

# 使用defaultdict来构建word2idx字典
word2idx = defaultdict(lambda: len(word2idx))

word2idx = {'<pad>': 0,'<UNK>':1}

# 遍历分词后的数据，并将单词添加到word2idx字典中
for sentence in padded_sequences:
    for word in sentence:
        word2idx[word] = len(word2idx)

    # 获取词汇表大小（即单词到索引映射中的单词数量）
vocab_size = len(word2idx)

word2idx_as_python_ints = {str(k): v for k, v in word2idx.items()}

# 将 word2idx 字典保存到 JSON 文件中
with open('word2idx.json', 'w', encoding='utf-8') as f:
    json.dump(word2idx_as_python_ints, f, ensure_ascii=False, indent=4)


**下面是进行模型训练的部分：**


import numpy as np
import torch
from torch import nn
from torch.utils.data import DataLoader,random_split, TensorDataset
from sklearn.model_selection import train_test_split
from model import SentimentNet
from gensim.models import KeyedVectors
from model_2 import SentimentNet
import json
import pandas as pd

with open('word2idx.json', 'r', encoding='utf-8') as f:
    word2idx = json.load(f)

# 加载预处理后的数据
np_texts = np.load('data/npy_data/processed_texts.npy')
np_labels = np.load('data/npy_data/processed_labels.npy')

# 将NumPy数组转换为PyTorch张量
texts = torch.from_numpy(np_texts).long()  # 假设texts是整数索引
labels = torch.from_numpy(np_labels).float()  # 假设labels是浮点数

# 创建一个TensorDataset
dataset = TensorDataset(texts, labels)

# 数据集划分逻辑
train_size = int(0.8 * len(dataset))  
test_size = len(dataset) - train_size  

# 使用random_split划分数据集
train_dataset, test_dataset = random_split(dataset, [train_size, test_size])
# 创建数据加载器
train_loader = DataLoader(train_dataset, batch_size=128, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=128, shuffle=False)

# 加载预训练的Word2Vec模型
word2vec_model = KeyedVectors.load_word2vec_format('path/word2vec/word2vec_779845.bin', binary=True)

vocab_size = len(word2idx)  # 词汇表大小
embedding_dim = 400  # 嵌入维度
hidden_dim = 128  # LSTM隐藏层维度
output_dim = 1  # 输出维度
dropout = 0.5  # dropout率
pad_idx = word2idx['<pad>']  

# 初始化模型
model = SentimentNet(vocab_size, embedding_dim, hidden_dim, output_dim, dropout, pad_idx, bn=True)

# 加载预训练的词嵌入
model.load_pretrained_embeddings(word2vec_model, word2idx)

# 定义损失函数和优化器
criterion = nn.BCELoss()  
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# 训练模型
num_epochs = 10
for epoch in range(num_epochs):
    model.train()  # 设置模型为训练模式
    running_loss = 0.0
    corrects = 0
    total = 0
    for texts, labels in train_loader:
        # 初始化隐藏状态
        hidden = model.init_hidden(texts.size(0))

        # 前向传播
        outputs, hidden = model(texts, hidden)

        # 阈值化预测
        preds = (outputs.squeeze() >= 0.5).float()

        # 计算损失
        loss = criterion(outputs.squeeze(), labels)

        # 反向传播和优化
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        # 累积统计信息
        running_loss += loss.item() * texts.size(0)
        corrects += torch.sum(preds == labels.data)
        total += labels.size(0)

    # 计算epoch的平均损失和准确率
    epoch_loss = running_loss / total
    epoch_acc = corrects.double() / total

    # 打印统计信息
    print(f'Epoch [{epoch + 1}/{num_epochs}], Loss: {epoch_loss:.4f}, Acc: {epoch_acc * 100:.2f}%')

打印出的结果为什么准确率一直在50%上下波动，损失值在0.69？（下图是打印结果）怎么解决这个问题呢？要修改上面的代码吗？救命！快来个人帮帮我吧！非常感谢！（我的原始数据标签为1的有59993条，标签为0的有59995条，经数据预处理后的标签为1的数据数量: 59650，标签为0的数据数量: 59662）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-25 13:09
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

根据您提供的信息和代码，我会尝试帮助您分析模型训练中遇到的问题，并提供一些可能的解决方案。

问题分析

准确率和损失值问题原因：

数据不平衡：您提到原始数据中标签为1和0的数据数量几乎相等，这可能导致模型在训练过程中难以区分两种情感类别。
模型复杂度：模型可能过于简单或复杂度不够，无法捕捉数据中的复杂特征。
学习率设置：学习率可能过高或过低，导致模型训练不稳定或收敛速度慢。
优化器选择：使用的优化器可能不适合当前模型或数据集。
超参数设置：如隐藏层大小、dropout率等超参数可能需要调整。

模型定义、数据处理、训练过程问题：

模型定义：您的模型定义看起来是合理的，但可能需要根据数据集特性进行微调。
数据处理：数据清洗和预处理步骤是关键，需要确保数据质量。
训练过程：训练过程中的损失函数、优化器和超参数设置都需要仔细调整。

解决方案

数据预处理：

重新检查数据清洗和预处理步骤，确保没有错误或遗漏。
考虑使用数据增强技术，如随机插入、删除、交换句子中的词语等，以增加数据多样性。

模型调整：

增加模型复杂度：尝试增加LSTM层的数量或隐藏层的大小。
调整超参数：尝试不同的学习率、隐藏层大小、dropout率等。
使用不同的激活函数：例如，尝试使用ReLU代替Sigmoid作为隐藏层的激活函数。

训练策略：

调整学习率：使用学习率衰减策略，如学习率预热或周期性调整。
使用不同的优化器：尝试AdamW、RMSprop等优化器。
早停法：如果在验证集上的性能在连续几个epoch内没有改善，则停止训练。

评估和调试：

交叉验证：使用交叉验证来评估模型的稳定性和泛化能力。
可视化训练过程：绘制训练和验证损失及准确率曲线，以监控模型训练过程。
混淆矩阵：生成混淆矩阵以分析模型在不同类别上的表现。

代码实现：

确保代码中没有逻辑错误，例如在模型定义和训练循环中正确使用变量和函数。

参考资料：

深度学习入门教程
PyTorch官方文档
情感分析相关论文和资源

结论

模型训练的问题可能由多种因素引起，需要通过逐步调整和测试来解决。希望上述建议能帮助您改进模型的性能。如果需要更具体的代码实现或进一步的帮助，请提供更详细的信息或具体问题。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

LSTM模型如何进行新数据的预测？ python 人工智能机器学习深度学习神经网络
2019-07-04 15:21

回答 2 已采纳创建一个预测数组，每预测一个Y就往数组里放一个，同时更新你用来预测的自变量X数组，剔除最早的X，把预测值加入到X里，依次往后预测
LSTM模型可以训练怎样的数据集？人工智能深度学习神经网络自然语言处理
2020-04-18 17:08

回答 1 已采纳 LSTM主要用来学习序列，并且序列的变化的影响因子和序列本身有关或者周期性波动。比如说文本预测，每天每周每年的销量别的也可以学，但是效果未必很好。
LSTM模型训练过拟合问题。 python 人工智能深度学习神经网络
2020-09-15 10:21

回答 1 已采纳没办法，你的训练样本太少。增加训练样本是唯一的办法。好比吃不饱饭怎么办，不增加饭，采用稀饭掺水，少餐多顿这些办法都治标不治本。所以你看即便it大厂，也在拼命积攒数据以及人工标注数据，花费大
基于LSTM的情感分析程序实现源码
2024-03-21 14:41

【博文讲解链接：...整体来说，本文对LSTM模型和情感分析的相关技术进行了深入的探讨和分析，对自然语言处理领域的研究和实践具有重要意义。
关于LSTM模型提取数据特征 tensorflow 人工智能深度学习自然语言处理
2020-04-24 23:35

回答 1 已采纳用fit训练，用predict预测－－－－－－－－－－－－－－－－－－－－－－－－－－－本来还想多说几句的，一看之前的回答都没有采纳。当我白说
找的lstm模型里没有学习率这个参数 python
2021-07-21 10:15

回答 2 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 请看👉 ：深度学习-利用LSTM预测多输出如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
pytorch训练LSTM模型的代码疑问 python 人工智能深度学习神经网络
2019-08-09 11:55

回答 2 已采纳 ``` def __init__(self): super(Sequence,self).__init__() self.lstm1 = nn.LSTMCel
基于python与LSTM的文本情感分析设计与实现
2022-05-20 23:52

文本情感分析是自然语言处理（NLP）领域的一个重要任务，其目的是确定文本中的...通过实际操作，开发者不仅能掌握LSTM模型的构建和训练，还能深化对文本处理和自然语言理解的理解，为未来的人工智能应用打下坚实基础。
如何使用LSTM和Transform等经典模型 lstm transformer 自然语言处理
2022-10-12 20:31

回答 1 已采纳建议换pytorch，信我，tensorflow坑巨多，还有各个版本之间的api兼容性，cuda兼容性巨差，旧版本的代码（1.08-1.15）在新版本（2.x）基本上跑不动,而一些旧的代码基本上都是1
关于#lstm#的问题：lstm训练，padding 补0后,模型不收敛 lstm pytorch 时序数据库
2022-07-20 18:43

回答 2 已采纳直接划分60s滑动窗口不行嘛
LSTM神经网络模型张量与变量维度不匹配 lstm python tensorflow
2023-04-03 17:51

回答 3 已采纳与之前模型的checkpoint路径重合，新建一个路径保存即可
PyTorch实战：BI-LSTM模型的情感分析详解
2024-06-24 20:12

lazycatlove的博客此次是基于pytorch框架简单地实现了bi-lstm模型进行文本分类，采用sigmoid函数的输出作为情感值是很不合理的，应该叫倾向值，或者不看该数据也是可以的，只关心正负向就行。后续将继续学习使用预训练词向量进行训练...
PSO-LSTM时间序列预测模型在预测的时候Matlab每次运行结果不一样，该如何处理 lstm matlab 有问必答机器学习
2022-03-13 15:32

回答 2 已采纳可以设置随机数的种子，设置好后每次运行的结果就相同了，方法如下： rng(1) % 设置随机数种子为1 %% 然后开始随机数的取值操作计算
人工智能+LSTM+影评情感分类模型
2024-07-24 23:06

文本分析-人工智能+LSTM+影评情感分类模型，《Mindspore框架循环神经网络RNN模型实现情感分类|（六）模型加载和推理（情感分类模型资源下载）》博客地址：...
深度学习：基于长短时记忆网络LSTM实现情感分析
2023-09-27 13:01

智慧医疗的博客文本情感分析（Sentiment Analysis）是自然语言处理（NLP）方法中常见的应用，也是一个有趣的基本任务，尤其是以提炼文本情绪内容为目的的...本文将详细介绍如何使用深度学习模型中的LSTM模型来实现文本的情感分析。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月25日

悬赏问题

¥15 Windows Script Host 无法找到脚本文件"C:\ProgramData\Player800\Cotrl.vbs”
¥15 matlab自定义损失函数
¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图

lstm模型做情感分析

2条回答 默认 最新

问题分析

解决方案

结论

问题事件

悬赏问题

2条回答默认最新