通过CountVectorizer和chi2特征提取，进行文本分类，准确率只有0.34正常吗

代码如下：

#encoding=utf-8

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import  SVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score,make_scorer
from sklearn.metrics import classification_report,accuracy_score
import numpy as n

categories = ['alt.atheism','talk.religion.misc','comp.graphics','sci.space']
data_train = fetch_20newsgroups(subset='train',categories=categories)
data_test = fetch_20newsgroups(subset='test',categories=categories)

count = CountVectorizer(stop_words='english',min_df=2)
train_feature = count.fit_transform(data_train.data)
print train_feature.toarray()
chi = SelectKBest(chi2,k=500)
train = chi.fit_transform(train_feature,data_train.target)
test_feature = count.fit_transform(data_test.data)
test = chi.fit_transform(test_feature,data_test.target)
# clf = MultinomialNB()
# classifier = clf.fit(train,data_train.target)
# test_accuracy = classifier.score(test,data_test.target)
# print test_accuracy

svc = SVC()
param_grid = {'kernel':('linear','poly'),'C':[0.1,1]}
grid_search = GridSearchCV(svc,param_grid=param_grid,cv=5,scoring=make_scorer(accuracy_score))
grid_search.fit(train,data_train.target)
y = grid_search.predict(test)
print grid_search.best_estimator_
print 'accuracy',accuracy_score(data_test.target,y)
print classification_report(data_test.target,y)

结果：
accuracy 0.34885439763488546
precision recall f1-score support

0 0.34 0.39 0.36 319
1 0.42 0.43 0.43 389
2 0.36 0.33 0.34 394
3 0.22 0.20 0.21 251

micro avg 0.35 0.35 0.35 1353
macro avg 0.34 0.34 0.34 1353
weighted avg 0.35 0.35 0.35 1353

求大佬指导一下哪有问题吗

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 19:35
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
这篇文章：词袋模型和CountVectorizer类详解也许有你想要的答案，你可以看看

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

文本特征提取常见方法
2018-01-28 16:10

### 文本特征提取常见方法详解 #### 一、文本数据的表示模型 ...通过合理选择文本表示模型和特征选择方法，可以有效提升模型的性能和准确性。在实际应用中，应根据具体需求和场景选择合适的模型和技术手段。
python卡方CHI特征检验提取关键文本特征
2022-11-29 22:38

Toblerone_Wind的博客卡方特征提取主要度量类别和单词之间的依赖关系。计算公式如下其中N是文档总数，A是包含单词且属于的文档数，B是包含单词但不属的文档数，C是不包含单词但属于的文档数，D是不包含单词且不属于的文档数。值得注意的...
自然语言处理之文本分类：Random Forest：特征提取与向量化
2025-05-12 21:24

zhubeibei168的博客通过上述示例，我们展示了如何使用Scikit-learn库进行特征提取与向量化，以及如何使用随机森林进行文本分类。请注意，虽然题目要求中提到“严禁输出主题‘自然语言处理之文本分类：Random Forest：特征提取与向量化...
基于GRW和FastText模型的电信用户投诉文本分类应用.docx
2022-06-02 09:34

随着大数据和人工智能的发展，电信运营商需要建立科学合理的文本分类模型，以快速、准确地分类用户投诉信息，提升用户良好体验和使用感知。 文本分类属于自然语言处理（NLP）应用研究范畴中的一个分支，目前已经有...
基于CHI值特征选取和覆盖的文本分类方法
2011-05-06 16:31

2. **确保分类准确性**：CHI值能够挑选出最具区分性的特征，而覆盖算法能够有效地利用这些特征进行准确分类。 3. **减少人力成本**：自动化的文本分类过程无需领域专家的手动干预，大大降低了人力成本。 #### 实验...
特征提取 中文文本分类
2010-03-26 20:35

特征提取在中文文本分类中扮演着至关重要的角色，它是将原始文本数据转化为机器学习模型能够理解和处理的形式的关键步骤。在这个过程中，我们从大量的文本信息中筛选出最具代表性和区分性的特征，以便让模型能够准确...
基于改进CHI和带权ECE结合的特征选择方法
2021-04-30 12:48

针对文本分类特征选择方法中的卡方统计（CHI）和期望交叉熵（ECE），分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题，通过引入调节因子和除去负相关影响因素，给出了改进的CHI方法...
一种基于PCA的组合特征提取文本分类方法 (2013年)
2021-05-18 13:28

本文提出了一种基于PCA（主成分分析）的组合特征提取方法（PCA-CFEA），这种方法融合了多种评估算法的优点，以期达到提升文本分类准确率和执行效率的目的。 PCA是一种常用的数据降维技术，其核心思想是将数据从高维...
【人工智能】深入特征工程：用Python优化文本数据处理和特征提取
2024-12-12 10:31

蒙娜丽宁的博客本文系统讲解了文本数据的特征工程方法，包括文本预处理、词袋模型、TF-IDF特征、词嵌入、特征降维和特征选择。我们将结合Python代码详细解析这些技术的实现，帮助读者理解从原始文本到模型可用特征的全流程。同时，...
自然语言处理之文本分类：Gradient Boosting：特征提取与选择
2025-05-10 22:07

zhubeibei168的博客 XGBoost (eXtreme Gradient Boosting)是Gradient Boosting的一个高效实现，它在GBDT的基础上进行了优化，包括正则化项以防止过拟合，以及并行计算和缓存优化以提高训练速度。XGBoost在许多机器学习竞赛中表现出色，...
使用Java语言版的文本分类
2020-02-21 15:22

在标签中提到了"人工智能"和"深度学习"，这表明文本分类还可以扩展到更复杂的模型，如深度神经网络（DNN）和卷积神经网络（CNN）。尽管Java不是首选的深度学习语言，但通过Deeplearning4j这样的库，我们仍然可以在...
AI100文本分类竞赛代码--从传统机器学习到深度学习方法的测试.zip
2024-02-27 20:23

主要用于文本分类，其中涉及CHI选择特征词，TFIDF计算权重，朴素贝叶斯、决策树、SVM、XGBoost等算法，实现传统的文本分类并取得了不错的效果。此外，还是用cnn卷积神经网络实现了中文的文本分类，效果要优于上述...
【文本分类】混合CHI和MI的改进文本特征选择方法
2021-11-01 23:12

征途黯然.的博客摘要：改进CHI算法、改进MI算法，结合改进CHI+改进MI，应用于文本的特征选择，提高了精度。参考文献：[1]文武,万玉辉,张许红,文...基于改进CHI和PCA的文本特征选择[J].计算机工程与科学,2021,43(09):1645-1652. ...
用CHI检验提取文本特征词
2015-11-22 14:02

BlockheadLS的博客在对文本数据集分词并且除去停用词以后，我们就必须进行文本特征词的提取。所谓特征词就是可以代表此篇文章或者此类文章的一些词语。特征词提取的算法有很多，在此篇博客中讲的是CHI检验。CHI检验让我觉得概率论还是...
数据处理和分析之分类算法：朴素贝叶斯(NaiveBayes)：特征选择与提取
2024-10-02 07:55

kkchenkx的博客通过选择最相关的特征和使用适当的特征提取方法，我们可以构建更准确、更高效、更易于解释的分类模型。在实际应用中，选择合适的特征提取方法（如词袋模型、TF-IDF或词嵌入）对于处理文本数据尤为重要。在本节中，...
没有解决我的问题, 去提问

通过CountVectorizer和chi2特征提取，进行文本分类，准确率只有0.34正常吗

1条回答 默认 最新

1条回答默认最新