小shua shua 2025-05-29 16:28 采纳率: 0%

bert和lstm情感分析

请运用 BERT 和 LSTM对亚马逊英文图书评论进行情感分析（情感分为积极、中级、消极的情感属性、并包括内容、价格、物流、印刷、装订、作者、其他等属性）。BERT 负责生成上下文嵌入，提供深度语义信息。LSTM 负责进一步处理 BERT 输出的序列特征，提取时间步相关的情感信息。通过这种结合，我们可以利用 BERT 的全局语义表示能力和 LSTM 的序列建模能力，实现更高效的情感分类。并计算模型的准确率（accuracy）、召回率（Recall）、F1 值进行模型评价。我们将评论分为了训练集、测试集与验证集，并运用label-studio对训练集完成了标注。求后续步骤与完整代码，感谢各位。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

檀越@新空间 2025-05-29 16:43

关注

下午好🌅🌅🌅
本答案参考通义千问

以下是一个完整的解决方案，帮助你完成基于BERT和LSTM的情感分析任务。我们将分步骤说明如何实现，并提供代码示例。

步骤 1：数据准备

加载标注数据
使用 Label-Studio 标注的数据需要转换为适合模型训练的格式，例如 train.csv 和 test.csv，其中每行包含评论文本、情感标签以及属性标签。
数据预处理
将文本数据转换为适合模型输入的格式，例如使用 BERT 的 tokenizer 进行分词，并将标签编码为数值。

步骤 2：安装依赖库

确保安装了必要的 Python 库：

pip install torch transformers datasets scikit-learn pandas

步骤 3：BERT 和 LSTM 模型构建

我们使用 Hugging Face 的 transformers 库加载预训练的 BERT 模型，并在其基础上添加 LSTM 层用于进一步建模。

完整代码

1. 导入必要库

import torch
from torch import nn
from torch.utils.data import DataLoader, Dataset
from transformers import BertTokenizer, BertModel
from sklearn.metrics import accuracy_score, recall_score, f1_score
import pandas as pd

2. 数据预处理

# 加载数据
train_df = pd.read_csv("train.csv")
test_df = pd.read_csv("test.csv")

# 初始化 BERT 分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 定义数据集类
class BookReviewDataset(Dataset):
    def __init__(self, df, tokenizer, max_len=128):
        self.reviews = df['review'].tolist()
        self.labels = df['sentiment'].tolist()  # 情感标签
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.reviews)

    def __getitem__(self, idx):
        review = str(self.reviews[idx])
        label = self.labels[idx]
        
        encoding = self.tokenizer.encode_plus(
            review,
            add_special_tokens=True,
            max_length=self.max_len,
            padding='max_length',
            truncation=True,
            return_attention_mask=True,
            return_tensors='pt'
        )
        
        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }

# 创建数据加载器
def create_data_loader(df, tokenizer, batch_size=16):
    dataset = BookReviewDataset(df, tokenizer)
    return DataLoader(dataset, batch_size=batch_size, shuffle=True)

3. 构建模型

class BERTLSTMModel(nn.Module):
    def __init__(self, bert_model_name, num_labels, lstm_hidden_size=128):
        super(BERTLSTMModel, self).__init__()
        self.bert = BertModel.from_pretrained(bert_model_name)
        self.lstm = nn.LSTM(self.bert.config.hidden_size, lstm_hidden_size, batch_first=True, bidirectional=True)
        self.fc = nn.Linear(lstm_hidden_size * 2, num_labels)  # 双向 LSTM 输出拼接

    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        sequence_output = outputs.last_hidden_state
        
        lstm_out, _ = self.lstm(sequence_output)
        lstm_out = lstm_out[:, -1, :]  # 取最后一个时间步的输出
        
        logits = self.fc(lstm_out)
        return logits

4. 训练模型

def train_epoch(model, data_loader, optimizer, device):
    model = model.train()
    losses = []
    
    for batch in data_loader:
        input_ids = batch['input_ids'].to(device)
        attention_mask = batch['attention_mask'].to(device)
        labels = batch['labels'].to(device)
        
        optimizer.zero_grad()
        outputs = model(input_ids, attention_mask)
        loss = nn.CrossEntropyLoss()(outputs, labels)
        loss.backward()
        optimizer.step()
        
        losses.append(loss.item())
    
    return sum(losses) / len(losses)

def evaluate_model(model, data_loader, device):
    model = model.eval()
    predictions, true_labels = [], []
    
    with torch.no_grad():
        for batch in data_loader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)
            
            outputs = model(input_ids, attention_mask)
            _, preds = torch.max(outputs, dim=1)
            
            predictions.extend(preds.cpu().numpy())
            true_labels.extend(labels.cpu().numpy())
    
    acc = accuracy_score(true_labels, predictions)
    recall = recall_score(true_labels, predictions, average='weighted')
    f1 = f1_score(true_labels, predictions, average='weighted')
    
    return acc, recall, f1

5. 主程序

if __name__ == "__main__":
    # 参数设置
    DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    BATCH_SIZE = 16
    EPOCHS = 5
    LR = 2e-5
    
    # 加载数据
    train_loader = create_data_loader(train_df, tokenizer, BATCH_SIZE)
    test_loader = create_data_loader(test_df, tokenizer, BATCH_SIZE)
    
    # 初始化模型
    model = BERTLSTMModel('bert-base-uncased', num_labels=3).to(DEVICE)
    optimizer = torch.optim.AdamW(model.parameters(), lr=LR)
    
    # 训练与评估
    for epoch in range(EPOCHS):
        train_loss = train_epoch(model, train_loader, optimizer, DEVICE)
        acc, recall, f1 = evaluate_model(model, test_loader, DEVICE)
        
        print(f"Epoch {epoch + 1}/{EPOCHS}")
        print(f"Train Loss: {train_loss:.4f} | Accuracy: {acc:.4f} | Recall: {recall:.4f} | F1 Score: {f1:.4f}")

关键点解析

BERT 的作用：
使用 BERT 提取评论的上下文嵌入，提供深度语义信息。
LSTM 的作用：
对 BERT 的输出序列进行进一步建模，提取时间步相关的情感信息。
模型评估：
使用 accuracy, recall, f1_score 等指标综合评估模型性能。
扩展性：
如果需要进一步细化情感属性（如内容、价格等），可以引入多任务学习或注意力机制。

运行结果

假设模型在测试集上运行，输出可能如下：

Epoch 1/5
Train Loss: 0.5432 | Accuracy: 0.7890 | Recall: 0.7650 | F1 Score: 0.7780
Epoch 2/5
Train Loss: 0.4876 | Accuracy: 0.8120 | Recall: 0.7930 | F1 Score: 0.8050
...

希望这个解决方案对你有帮助！如果有任何问题，欢迎继续提问。

报告相同问题？

关注问题

bert和lstm情感分析，如何实现？
2025-06-02 21:18

bug菌¹的博客本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到...备注：部分问题/难题源自互联网，经过精心筛选和整理，结合数位十多年大厂实战经验资深大佬经验总结所得，数条可行方案供所需之人参考。
NLP进阶，Bert+BiLSTM情感分析实战
2021-11-12 15:47

AI浩的博客 Bert+BiLSTM做情感分析 情感分析 情感分析一类的任务比如商品评价正负面分析，敏感内容分析，用户感兴趣内容分析、甚至安全领域的异常访问日志分析等等实际上都可以用文本分类的方式去做，情感分析的问题本质是个二...
NLP 进阶：BERT + LSTM 用于情感分类的迁移学习
2025-01-15 09:10

拥抱 Ai的博客引言情感分类（Sentiment Classification）是自然语言处理（NLP）中的经典任务，旨在分析文本中的情感倾向，如正面、负面或中立情绪。近年来，BERT 和 LSTM 的结合成为... #NLP #BERT #LSTM #情感分类 #迁移学习 #AI
基于 BERT+BILSTM 实现情感分析分类（附源码）
2024-07-13 17:07

Muti-Agent的博客本文主要基于 Bert 和 BiLSTM 实现情感分类，其中参考了多个博客，具体见参考链接。
2024最新情感分析算法对比：BERT vs LSTM谁更强？
2025-07-03 09:33

AI算力网络与通信的博客理解BERT和LSTM的核心差异掌握两种模型在情感分析任务中的实际表现根据具体需求选择更合适的模型了解2024年情感分析算法的最新趋势用生活案例讲清BERT和LSTM的核心原理通过数学公式和流程图揭示技术本质用真实代码...
NLP进阶，Bert+BiLSTM情感分析实战(1)
2024-04-28 20:07

sfdsfgdgd的博客不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的...
【NLP实战】基于Bert和双向LSTM的情感分类【中篇】
2023-04-10 16:53

Twilight Sparkle.的博客本文为该系列第二篇文章，在本文中，我们将学习如何用pytorch搭建我们需要的Bert+Bilstm神经网络，如何用pytorch lightning改造我们的trainer，并开始在GPU环境我们第一次正式的训练。在这篇文章的末尾，我们的模型...
Bert和LSTM：情绪分类中的表现
2023-09-02 11:36

无水先生的博客这篇文章的目的是评估和比较 2 种深度学习算法（BERT 和 LSTM）在情感分析中进行二元分类的性能。评估将侧重于两个关键指标：准确性（衡量整体分类性能）和训练时间（评估每种算法的效率）。
情感分析系列（四）——使用BERT进行情感分析
2022-11-01 22:12

「已注销」的博客使用BERT进行情感分析
人工智能微博领域情感分析模型案例代码及数据
2023-08-26 15:54

本项目基于 weibo_senti_100k.csv 数据集，分别使用朴素贝叶斯、逻辑回归、LSTM、CNN、BERT等模型进行了实验，其中涉及的词向量表示方式包括one-hot、Bag of Words、TF-IDF、Word2Vec、Glove等。对于Word2Vec和Glove...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月29日