在 TF-IDF 特征提取的基础上对模型建立与评估

在 TF-IDF 特征提取的基础上，分别采用逻辑回归、朴素贝叶斯两种模型对文本数据的分类效果进行比较（准确率、召回率、F1）；逻辑回归对分类标签种类比较（准确率、召回率、F1）
数据来源：https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset

import numpy as np
import pandas as pd
import time
import jieba
import re
import string
import pickle
import matplotlib.pyplot as plt


from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer
from sklearn.model_selection import StratifiedKFold



# # Pandas设置
# pd.set_option("display.max_columns", None)  # 设置显示完整的列
# pd.set_option("display.max_rows", None)  # 设置显示完整的行
# pd.set_option("display.expand_frame_repr", False)  # 设置不折叠数据
# pd.set_option("display.max_colwidth", 100)  # 设置列的最大宽度


# 加载数据集
def data():
    a=[]
    with open(r'D:\桌面\文本分类\data.txt',encoding='utf-8') as f:
        a.append(f.readlines())
    df = pd.DataFrame(a[0])
    df['label']=df[0].apply(lambda x:x.split('_!_')[1])      #对第二个！前的数据名称设置为label
    df['label_desc']=df[0].apply(lambda x:x.split('_!_')[2]) #对第三个！前的数据名称设置为label_desc
    df['sentence']=df[0].apply(lambda x:x.split('_!_')[3])   #对第四个！前的数据名称设置为sentence
    return df.iloc[0:,1:] 
df=data()


#去重仅保留第一次出现的评论
df=df.drop_duplicates(keep='first',inplace=False)
#去除空白行
df= df.dropna(axis=0)



STOPWORDS = r'D:\桌面\文本分类\停用词\stopwords-master\哈工大停用词表.txt'
stoplist = []
content_list = []
for word in open(STOPWORDS,encoding='utf-8'):
    stoplist.append(word.strip())   #添加停用词表


#去除无效符号
def qu_dian(text):
    punc = r'[~`!#$%^&*()_+-=|\';":/.,?><~·！@#￥%……&*（）——+-=“：’；、。，？》《{}]'
    ff=re.sub(punc, "",text)
    f1=jieba.lcut(ff,cut_all=False)     #中文分词
    def rn(x):
        return x.replace(' ','')
    ben=list(filter(rn,f1))
    return ben

df['quchu']=df['sentence'].apply(qu_dian)

#去除停用词
def qu_word(x):
    real=[]
    for i in x:
        if i not in stoplist:
            real.append(i)
    return real

df['quchu']=df['quchu'].apply(qu_word)



# 实例化CountVectorizer
vectorizer = CountVectorizer()
# 将文本数据转化为特征矩阵
X = vectorizer.fit_transform(df['sentence'].tolist())
# 实例化TfidfTransformer
transformer = TfidfTransformer()
# 对特征矩阵进行tf-idf转换
X = transformer.fit_transform(X)
# 实例化StratifiedKFold
skf = StratifiedKFold(n_splits=5)

# 对数据进行划分
for train_index, test_index in skf.split(X, df['label']):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = df['label'][train_index], df['label'][test_index]

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

GISer Liu 2023-02-12 00:29

关注


import numpy as np
import pandas as pd
import time
import jieba
import re
import string
import pickle
import matplotlib.pyplot as plt


from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB


# # Pandas设置
# pd.set_option("display.max_columns", None)  # 设置显示完整的列
# pd.set_option("display.max_rows", None)  # 设置显示完整的行
# pd.set_option("display.expand_frame_repr", False)  # 设置不折叠数据
# pd.set_option("display.max_colwidth", 100)  # 设置列的最大宽度


# 加载数据集
def data():
    a=[]
    with open(r'F:\项目\jupternotebook\吴恩达机器学习2022\文本数据分析\datas.txt',encoding='utf-8') as f:
        a.append(f.readlines())
    df = pd.DataFrame(a[0])
    df['label']=df[0].apply(lambda x:x.split('_!_')[1])      #对第二个！前的数据名称设置为label
    df['label_desc']=df[0].apply(lambda x:x.split('_!_')[2]) #对第三个！前的数据名称设置为label_desc
    df['sentence']=df[0].apply(lambda x:x.split('_!_')[3])   #对第四个！前的数据名称设置为sentence
    return df.iloc[0:,1:] 
df=data()


#去重仅保留第一次出现的评论
df=df.drop_duplicates(keep='first',inplace=False)
#去除空白行
df= df.dropna(axis=0)



STOPWORDS = r'F:\项目\jupternotebook\吴恩达机器学习2022\文本数据分析\哈工大停用词表.txt'
stoplist = []
content_list = []
for word in open(STOPWORDS,encoding='utf-8'):
    stoplist.append(word.strip())   #添加停用词表


#去除无效符号
def qu_dian(text):
    punc = r'[~`!#$%^&*()_+-=|\';":/.,?><~·！@#￥%……&*（）——+-=“：’；、。，？》《{}]'
    ff=re.sub(punc, "",text)
    f1=jieba.lcut(ff,cut_all=False)     #中文分词
    def rn(x):
        return x.replace(' ','')
    ben=list(filter(rn,f1))
    return ben

df['quchu']=df['sentence'].apply(qu_dian)

#去除停用词
def qu_word(x):
    real=[]
    for i in x:
        if i not in stoplist:
            real.append(i)
    return real

df['quchu']=df['quchu'].apply(qu_word)



# 实例化CountVectorizer
vectorizer = CountVectorizer()
# 将文本数据转化为特征矩阵
X = vectorizer.fit_transform(df['sentence'].tolist())
# 实例化TfidfTransformer
transformer = TfidfTransformer()
# 对特征矩阵进行tf-idf转换
X = transformer.fit_transform(X)
# 实例化StratifiedKFold
skf = StratifiedKFold(n_splits=5)

    
# 对数据进行划分
y = df['label']
for train_index, test_index in skf.split(X,y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    
#逻辑回归

clf = LogisticRegression(random_state=0, solver='lbfgs', multi_class='multinomial')
clf.fit(X_train, y_train)
y_pred_log = clf.predict(X_test)

#计算准确率、召回率、F1
accuracy = accuracy_score(y_test, y_pred_log)
precision = precision_score(y_test, y_pred_log, average='macro')
recall = recall_score(y_test, y_pred_log, average='macro')
f1 = 2 * precision * recall / (precision + recall)
print("逻辑回归分类结果：\n准确率：", accuracy, "\n召回率：", recall, "\nF1：", f1)


#朴素贝叶斯

clf = MultinomialNB()
clf.fit(X_train, y_train)
y_pred_clf = clf.predict(X_test)

#计算准确率、召回率、F1
accuracy = accuracy_score(y_test, y_pred_clf)
precision = precision_score(y_test, y_pred_clf, average='macro')
recall = recall_score(y_test, y_pred_clf, average='macro')
f1 = 2 * precision * recall / (precision + recall)
print("朴素贝叶斯分类结果：\n准确率：", accuracy, "\n召回率：", recall, "\nF1：", f1)

# 评估分类效果
print(classification_report(y_test, y_pred_log))

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(3条)

报告相同问题？

关注问题

在 TF-IDF 特征提取的基础上对模型建立与评估 python 逻辑回归
2023-02-11 22:48

回答 4 已采纳 import numpy as np import pandas as pd import time import jieba import re import string import pick
TF-IDF特征选取和划分数据集 python
2023-02-10 22:12

回答 2 已采纳首先，我们需要把文本数据处理为特征矩阵。这可以使用sklearn库中的CountVectorizer和TfidfTransformer实现： # 实例化CountVectorizer vectoriz
求TF-IDF改进算法（python语言） python 有问必答算法
2021-08-16 11:27

回答 3 已采纳参考一下：一文看懂 TF-IDF (概念图解+4大变种+发展历史) 简单来说，向量空间模型就是希望把查询关键字和文档都表达成向量，然后利用向量之间的运算来进一步表达向量间的关系。比如，一个比
TF-IDF算法及实现
2021-10-31 00:36

Ada的信徒的博客最近在看莫烦的NLP的课程，其中关于TF-IDF算法实际编程的时候还是遇到一些小问题，整理后放上来，加深记忆。 TF-IDF的计算方法有很多种，这里主要用的是SKLEARN中的计算方式，还是有些不一样，费了点劲儿才搞明白。...
用python实现tf-idf值计算相关问题 python 自然语言处理
2022-04-19 20:14

回答 1 已采纳建议把代码上传上来，而不是发个截图。不然没人看的。
在VScode上使用ESP-IDF的时候build project遇到问题 python 有问必答
2021-04-29 10:02

回答 6 已采纳报错是叫你看日志信息：C:/Users/14337/Desktop/esp32test/blink/build/CMakeFiles/CMakeOutput.log
在编译esp32时出现cmake无法读取文件的问题，所用框架为esp-idf c语言 iot 有问必答
2021-10-30 19:12

回答 2 已采纳在esp-idf\components\mbedtls\esp_crt_bundle下边找到“cacrt_all.pem”这个文件，搜索"EC-ACC"，删除“EC-ACC”和"END CERTIFI
csdn博客推荐系统实战-1文本相似度-TF-IDF模型和余弦相似度
2018-04-11 14:25

王睿编程20年的博客如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处. 算法实现用 ...
LDA模型运行时报错，如何解决？(语言-python) nlp python 有问必答自然语言处理
2022-03-08 09:36

回答 2 已采纳可能是路径中包含中文，在操作文件的过程中会因为中文字符的原因导致无法找到正常的路径，因此会出现 Users\ + xe6…那些报错。
ESP-IDF写esp32延时函数错误单片机物联网
2023-03-16 18:53

回答 3 已采纳参考GPT和自己的思路：根据代码看，您的延时函数似乎存在以下几个问题：没有对变量n进行初始化，导致程序无法正常工作；在do-while循环中使用了timer_get_counter_value(
用VSCODE搭建 ESP-IDF 开发环境学个hello_world，到这怎么都做不下去，谁知道为什么？ python vscode 单片机
2021-10-24 19:13

回答 1 已采纳这个方法似乎过时了，VSCode里直接搜索ESP的插件即可。
NLP之文本分类：「Tf-Idf、Word2Vec和BERT」三种模型比较
2020-10-03 18:59

喜欢打酱油的老鸟的博客在本文中，我将使用NLP和Python来解释3种不同的文本多分类策略：老式的词袋法（tf-ldf），著名的词嵌入法（Word2Vec）和最先进的语言模型（BERT）。 NLP（自然语言处理）是人工智能的一个领域，它研究计算机和...
关于用c语言将ESP-32两个示例融合在一起的问题 c语言
2022-11-06 19:42

回答 2 已采纳 esp32/8266环境搭建之c语言篇（win和linux）_调库侠的博客-CSDN博客_esp8266用c语言本文将介绍用c语言开发e
文本特征提取专题_以python为工具【Python机器学习系列（十二）】
2022-08-29 12:05

侯小啾的博客 特征提取专题_以python为工具【Python机器学习系列（十二）】1.字典特征提取 DictVectorizer() 1.1 one-hot编码1.2 字典数据转sparse矩阵2.英文文本特征提取3.... TF-IDF 文本特征提取 TfidfVectorizer().........
信息检索中的主要算法模型（TF-IDF、BM25等）以及IR系统的原理、架构设计和实现过程，阐述基于BM25模型的中文信息检索系统的实现原理和关键技术。并结合实际案例实践展示其优势及其局限性
2023-08-27 12:07

禅与计算机程序设计艺术的博客在这个过程中，工程师们提出了一系列关于“从数据到AI”、“构建和部署AI系统”、“控制AI”、“超越AI”等诸多问题的挑战。为了解决这些问题，提升人工智能的应用效率和效益，工程师们不断探索新的方法论和技术。在...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 2月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月11日

悬赏问题

¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来

在 TF-IDF 特征提取的基础上对模型建立与评估

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新