问题是没有训练集为空，但是我换一个样本可以运行，是我样本有

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

import pandas as pd
import os

os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
# 获取数据
df = pd.read_table('D:\文本挖掘\实验6\data\天猫各类商品评论.text', names=['type','content'], encoding='utf-8')
df = df[['type', 'content']]
print('数据总量：%d.' % len(df))
print(df.sample(100))

# 数据集预处理
print("在type列中总共有%d个空值." % df['type'].isnull().sum())
print("在content列中总共有%d个空值." % df['content'].isnull().sum())
df[df.isnull().values == True]
df = df[pd.notnull(df['content'])]
d = {'type': df['type'].value_counts().index, 'count': df['type'].value_counts()}
df_class = pd.DataFrame(data=d).reset_index(drop=True)
print(df_class)

df['type_id'] = df['type'].factorize()[0]
class_id_df = df[['type', 'type_id']].drop_duplicates().sort_values('type_id').reset_index(drop=True)
class_to_id = dict(class_id_df.values)
id_to_class = dict(class_id_df[['type_id', 'type']].values)
# df.sample(10)

# 定义删除字母，数字，汉字以外的所有符号函数
import re

def remove_punctuation(line):
    line = str(line)
    if line.strip() == '':
        return ''
    relu = re.compile(u"[^a-zA-Z0-9\u4E00-\u9FA5]")
    line = relu.sub('', line)
    return line

def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords


# 加载停用词
stopwords = stopwordslist('D:\文本挖掘\实验6\data\中文停用词表.txt')

df['clean_content'] = df['content'].apply(remove_punctuation)
# df.sample(10)
# 分词，并过滤停用词

import jieba

df['cut_content'] = df['clean_content'].apply(lambda x: "".join([w for w in list(jieba.cut(x)) if w not in stopwords]))
df.head()

# LSTM建模(数据预处理完成以后，要开始进行LSTM的建模工作)：
from keras.preprocessing.text import Tokenizer

MAX_NB_WORDS = 50000
MAX_SEQUUENCE_LENGTH = 200  #每条cut_content最大长度
EMBEDDING_DIM = 100            #设置embeddingceng层的维度
tokenizer = Tokenizer(num_words=MAX_NB_WORDS, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
                      lower=True)  # fileters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~',
tokenizer.fit_on_texts(df['cut_content'].values)
word_index = tokenizer.word_index
print('共有%s个不同的词语.' % len(word_index))

from keras.preprocessing.sequence import pad_sequences
X = tokenizer.texts_to_sequences(df['cut_content'].values)
X = pad_sequences(X, maxlen=MAX_SEQUUENCE_LENGTH)
Y = pd.get_dummies(df['type_id']).values
print(X.shape)
print(Y.shape)

# 划分训练集和测试集
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.1, random_state=42)
print(X_train.shape, Y_train.shape)
print(X_test.shape, Y_test.shape)

# 定义模型
from keras.models import Sequential
from keras.layers import Dense, LSTM, Embedding, SpatialDropout1D

model = Sequential()
model.add(Embedding(MAX_NB_WORDS, EMBEDDING_DIM, input_length=X.shape[1]))
model.add(SpatialDropout1D(0.2))
model.add(LSTM(100, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(9, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
print(model.summary())

# 训练数据
# 定义好LSTM模型后，开始训练数据:设置5个训练周期（epochs），batch_size为64训练数据
from keras.callbacks import EarlyStopping

history = model.fit(X_train, Y_train, epochs=5, batch_size=64, validation_split=0.1,
                    callbacks=[EarlyStopping(monitor='val_loss', patience=3, min_delta=0.0001)
                               ])

# LSTM模型的评估:
import seaborn as sns
from sklearn.metrics import accuracy_score, confusion_matrix
import matplotlib.pyplot as plt

y_pred = model.predict(X_test)
y_pred = y_pred.argmax(axis=1)
Y_test = Y_test.argmax(axis=1)
print('accuracy %s' % accuracy_score(y_pred, Y_test))

# 生成混淆矩阵
conf_mat = confusion_matrix(Y_test, y_pred)
fig, ax = plt.subplots(figsize=(10, 8))
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
sns.heatmap(conf_mat, annot=True, fmt='d', xticklabels=class_id_df.type.values, yticklabels=class_id_df.type.values)
plt.ylabel('实际结果', fontsize=16)
plt.ylabel('预测结果', fontsize=16)
plt.show()


# LSTM模型的测试:
def predict(text):
    txt = remove_punctuation(text)
    txt = [" ".join([w for w in list(jieba.cut(txt)) if w not in stopwords])]
    seq = tokenizer.texts_to_sequences(txt)
    padded = pad_sequences(seq, maxlen=MAX_SEQUUENCE_LENGTH)
    pred = model.predict(padded)
    class_id = pred.argmax(axis=1)[0]
    return class_id_df[class_id_df.type_id == class_id]['type'].values[0]

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
不会长胖的斜杠后端领域新星创作者 2022-04-28 11:05
关注
应该是样本有问题，检查一下你的数据集的内容和格式，D:\文本挖掘\实验6\data\天猫各类商品评论.text这里是不是D:\文本挖掘\实验6\data\天猫各类商品评论.txt呀，是不是写错了
有帮助的话望采纳，谢谢！

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python随机森林分类模型，测试集和训练集的样本数没有准确按照70%和30%分配？ python 机器学习
2019-04-08 11:15

回答 1 已采纳这个不是问题误差的原因可随机抽样有关，在运行几次可能还会有其他的分割结果出现，但都会是在7：3附近
Python，在分析建模的过程中出现报错显示，找到样本数不一致的输入变量，有人能解释一下并解决这个问题吗？ python
2022-05-31 20:42

回答 1 已采纳哪一行报错，有截图吗
请问cross_val_score的scoring参数获得的r2得分是训练集还是测试集的分数 python sklearn 机器学习
2023-01-26 16:39

回答 2 已采纳回答不易，求求您采纳点赞哦 cross_val_score函数中的scoring参数获得的R2得分是测试集的分数。交叉验证（cross-validation）是一种评估模型泛化能力的方法，它将训练
基于python下的车牌识别代码的车牌数据训练样本
2019-03-25 13:19

基于python下的车牌识别代码的车牌数据训练样本，在博主的代码内已经附加有训练好的数据了，不需要样本便可运行，需要样本进行研究的可以下载参考
yolov5增加数据集需要整个重新训练吗？(语言-python) python pytorch 深度学习
2022-02-17 14:25

回答 1 已采纳不需要，之前模型训练好了打包出来，有个参数文件，下次直接把这个参数model.load_weights（）把之前的参数load进去，然后只训练新的数据就行
keras 二分类预测结果几乎全是一个值 keras python 有问必答深度学习
2021-06-18 20:41

回答 2 已采纳应该是这个吧，你训练之后得到的模型是H，prediction = H.predict(img)
knn算法不是不需要训练吗，为什么还有训练集 python 有问必答深度学习计算机视觉
2022-04-03 18:39

回答 2 已采纳 KNN是需要训练集的，只是不需要训练算法而已。KNN的原理是找到数据库里和输入样本最近的几个样本，用它们的标签来判决输入样本标签，这就需要一个存在本地的数据库，称之为训练集。按理来说这里没有训练的过程
python生成图像样本的训练集、验证集和测试集
2020-05-14 15:55

假装是程序员的博客准备好图像样本和标注文件后，需对样本集进行划分，生成训练集、验证集和测试集，关于训练集划分参考：https://blog.csdn.net/kieven2008/article/details/81582591 我的目录结构： ——data ——image ——0...
RealSense训练深度图像数据集时需要保存为哪种格式的图像进行读取呢？ python tensorflow 深度学习
2021-06-04 16:34

回答 1 已采纳用jpg就行了，如果图像采集错误还能肉眼发现
训练集，线性回归，截距，斜率 python 机器学习
2023-04-10 16:23

回答 1 已采纳这有个类似的问题, 你可以参考下: https://ask.csdn.net/questions/7739025这篇博客你也可以参考下：吴恩达机器学习之多变量线性回归：多维特征、多变量梯度下降、梯度下
关于#python#的问题，如何解决？ python 有问必答
2022-03-19 20:41

回答 3 已采纳这个错误是说数据表中没有'isClick'列名检测下数据表文件,是不是'isClick'列名写错了如有帮助，请点击我的回答下方的【采纳该答案】按钮帮忙采纳下，谢谢!
【python】统计训练集的样本量-使用matplotlib绘制总文件夹下的各个文件夹内的数量柱状图，
2019-11-05 10:11

秦始皇的天下的博客两个学习点： 1、使用matplotlib绘制柱状图； 2、统计总的文件夹内的各个文件夹内文件的数量，并写入txt文件中 1、统计文件夹内的文件数 if __name__ == "__main__": #path = input("输入需要复制文件目录：") ...
如何将训练好的BP神经网络模型保存并可以在其他py文件中直接调用？ python 有问必答机器学习神经网络
2021-06-09 10:53

回答 2 已采纳这个需要建立字典封装起来
第四章 Python数据预处理之划分训练集与测试集
2022-02-27 00:30

IntelligentRS的博客本节主要介绍了训练集和测试集的划分、交叉验证的各种方法以及代码实现。
python划分训练集和测试集_python机器学习：如何划分训练集和测试集
2020-11-26 11:41

weixin_39775029的博客今天用一个实例给大家写写在机器学习中如何进行训练集和测试集的划分。实例操练首先导入今天要使用的数据集import pandas as pddf = pd.read_csv("carprices.csv")df.head()这是一个汽车销售的数据集，里面的变量...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月28日

悬赏问题

¥200 csgo2的viewmatrix值是否还有别的获取方式
¥15 Stable Diffusion，用Ebsynth utility在视频选帧图重绘，第一步报错，蒙版和帧图没法生成，怎么处理啊
¥15 请把下列每一行代码完整地读懂并注释出来
¥15 pycharm运行main文件，显示没有conda环境
¥15 寻找公式识别开发，自动识别整页文档、图像公式的软件
¥15 为什么eclipse不能再下载了？
¥15 编辑cmake lists 明明写了project项目名，但是还是报错怎么回事
¥15 关于#计算机视觉#的问题：求一份高质量桥梁多病害数据集
¥15 特定网页无法访问，已排除网页问题
¥50 如何将脑的图像投影到颅骨上

问题是没有训练集为空，但是我换一个样本可以运行，是我样本有

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新