TF-IDF特征选取和划分数据集

接下来怎么进行TF-IDF特征选取和划分数据集
数据来源：https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset

import numpy as np
import pandas as pd
import time
import jieba
import re
import string
import pickle
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer
from sklearn.model_selection import StratifiedKFold

# # Pandas设置
# pd.set_option("display.max_columns", None)  # 设置显示完整的列
# pd.set_option("display.max_rows", None)  # 设置显示完整的行
# pd.set_option("display.expand_frame_repr", False)  # 设置不折叠数据
# pd.set_option("display.max_colwidth", 100)  # 设置列的最大宽度

# 加载数据集
def data():
    a=[]
    with open(r'D:\桌面\文本分类\data.txt',encoding='utf-8') as f:
        a.append(f.readlines())
    df = pd.DataFrame(a[0])
    df['label']=df[0].apply(lambda x:x.split('_!_')[1])      #对第二个！前的数据名称设置为label
    df['label_desc']=df[0].apply(lambda x:x.split('_!_')[2]) #对第三个！前的数据名称设置为label_desc
    df['sentence']=df[0].apply(lambda x:x.split('_!_')[3])   #对第四个！前的数据名称设置为sentence
    return df.iloc[0:,1:] 
df=data()

#去重仅保留第一次出现的评论
df=df.drop_duplicates(keep='first',inplace=False)
#去除空白行
df= df.dropna(axis=0)

STOPWORDS = r'D:\桌面\文本分类\停用词\stopwords-master\哈工大停用词表.txt'
stoplist = []
content_list = []
for word in open(STOPWORDS,encoding='utf-8'):
    stoplist.append(word.strip())   #添加停用词表

#去除无效符号
def qu_dian(text):
    punc = r'[~`!#$%^&*()_+-=|\';":/.,?><~·！@#￥%……&*（）——+-=“：’；、。，？》《{}]'
    ff=re.sub(punc, "",text)
    f1=jieba.lcut(ff,cut_all=False)     #中文分词
    def rn(x):
        return x.replace(' ','')
    ben=list(filter(rn,f1))
    return ben

df['quchu']=df['sentence'].apply(qu_dian)

#去除停用词
def qu_word(x):
    real=[]
    for i in x:
        if i not in stoplist:
            real.append(i)
    return real

df['quchu']=df['quchu'].apply(qu_word)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
GISer Liu 2023-02-10 22:42
关注
首先，我们需要把文本数据处理为特征矩阵。这可以使用sklearn库中的CountVectorizer和TfidfTransformer实现：

# 实例化CountVectorizer vectorizer = CountVectorizer() # 将文本数据转化为特征矩阵 X = vectorizer.fit_transform(df['sentence'].tolist()) # 实例化TfidfTransformer transformer = TfidfTransformer() # 对特征矩阵进行tf-idf转换 X = transformer.fit_transform(X)

然后，我们可以使用sklearn库中的StratifiedKFold类来划分数据集：

# 实例化StratifiedKFold skf = StratifiedKFold(n_splits=5) # 对数据进行划分 for train_index, test_index in skf.split(X, df['label']): X_train, X_test = X[train_index], X[test_index] y_train, y_test = df['label'][train_index], df['label'][test_index]

此时，我们已经完成了TF-IDF特征选取和数据集划分。接下来，你可以使用你所选择的分类器对划分好的数据集进行训练和预测，并评估它的性能。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

TF-IDF特征选取和划分数据集 python
2023-02-10 22:12

回答 2 已采纳首先，我们需要把文本数据处理为特征矩阵。这可以使用sklearn库中的CountVectorizer和TfidfTransformer实现： # 实例化CountVectorizer vectoriz
求TF-IDF改进算法（python语言） python 有问必答算法
2021-08-16 11:27

回答 3 已采纳参考一下：一文看懂 TF-IDF (概念图解+4大变种+发展历史) 简单来说，向量空间模型就是希望把查询关键字和文档都表达成向量，然后利用向量之间的运算来进一步表达向量间的关系。比如，一个比
用python实现tf-idf值计算相关问题 python 自然语言处理
2022-04-19 20:14

回答 1 已采纳建议把代码上传上来，而不是发个截图。不然没人看的。
特征工程(三):特征缩放,从词袋到 TF-IDF
2020-05-28 16:35

沫嫣子的博客示例中，“Eama”和“raven”都出现了3词，但是“the”的出现高达8次，“and”出现了次，另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计，两个主要角色并不突出。这是有问题的。其他的像是“mag
在 TF-IDF 特征提取的基础上对模型建立与评估 python 逻辑回归
2023-02-11 22:48

回答 4 已采纳 import numpy as np import pandas as pd import time import jieba import re import string import pick
在VScode上使用ESP-IDF的时候build project遇到问题 python 有问必答
2021-04-29 10:02

回答 6 已采纳报错是叫你看日志信息：C:/Users/14337/Desktop/esp32test/blink/build/CMakeFiles/CMakeOutput.log
在编译esp32时出现cmake无法读取文件的问题，所用框架为esp-idf c语言 iot 有问必答
2021-10-30 19:12

回答 2 已采纳在esp-idf\components\mbedtls\esp_crt_bundle下边找到“cacrt_all.pem”这个文件，搜索"EC-ACC"，删除“EC-ACC”和"END CERTIFI
python TF-IDF，LDA ，DBSCAN算法观影用户的电影推荐聚类分析
2023-02-09 13:00

一枚爱吃大蒜的程序员的博客 python TF-IDF，LDA ，DBSCAN算法观影用户的电影推荐聚类分析
ESP-IDF写esp32延时函数错误单片机物联网
2023-03-16 18:53

回答 3 已采纳参考GPT和自己的思路：根据代码看，您的延时函数似乎存在以下几个问题：没有对变量n进行初始化，导致程序无法正常工作；在do-while循环中使用了timer_get_counter_value(
如何将已经进行tfidf和glove处理好的数据导入文本 python 有问必答机器学习自然语言处理
2021-05-04 21:50

回答 3 已采纳你将数据让模型去训练学习啊
用VSCODE搭建 ESP-IDF 开发环境学个hello_world，到这怎么都做不下去，谁知道为什么？ python vscode 单片机
2021-10-24 19:13

回答 1 已采纳这个方法似乎过时了，VSCode里直接搜索ESP的插件即可。
基于TF-IDF+Tensorflow+PyQt+孪生神经网络的智能聊天机器人（深度学习）含全部Python工程源码及模型+训练数据集
2023-07-04 18:49

小胡说人工智能的博客本项目利用TF-IDF（Term Frequency-Inverse Document Frequency 词频-逆文档频率）检索模型和CNN（卷积神经网络）精排模型构建了一个聊天机器人，旨在实现一个能够进行日常对话和情感陪伴的聊天机器人。用户可以向...
LDA模型运行时报错，如何解决？(语言-python) nlp python 有问必答自然语言处理
2022-03-08 09:36

回答 2 已采纳可能是路径中包含中文，在操作文件的过程中会因为中文字符的原因导致无法找到正常的路径，因此会出现 Users\ + xe6…那些报错。
特征缩放的效果：从词袋到 TF-IDF
2021-06-26 20:24

ZDA爱吃火锅的博客特征缩放的效果：从词袋到 TF-IDF 转载：github 译者：@gin 校对者：@HeYun 字袋易于生成，但远非完美。假设我们平等的统计所有单词，有些不需要的词也会被强调。在第三章提过一个例子，Emma and the raven。我们...
特征工程(三):特征缩放,从词袋到 TF-IDF
2018-12-17 14:35

weixin_33698043的博客字袋易于生成，但远非完美。...示例中，“Eama”和“raven”都出现了3词，但是“the”的出现高达8次，“and”出现了次，另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计，两个主要角...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月10日

悬赏问题

¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）

TF-IDF特征选取和划分数据集

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新