CountVectorizer()函数初始化词袋模型

使用Scikit-learn的CountVectorizer()函数初始化词袋模型时，设置不同的特征个数生成邮件的特征表示向量，比较训练分类模型所耗费的时间，以及分类模型分类的准确性。特征个数越多是否意味分类性能越好？
数据集为mailcorpus.txt

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-04-24 02:06
关注
建议你看下这篇博客👉 ：Scikit Learn CountVectorizer 入门实例
除此之外, 这篇博客: 词袋模型和CountVectorizer类详解中的 词袋模型 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
词袋模型（英语：Bag-of-words model）是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下，一段文本（比如一个句子或是一个文档）可以用一个装着这些词的袋子来表示，这种表示方式不考虑文法以及词的顺序。词袋模型本质是一种用机器学习算法对文本进行建模时表示文本数据的方法，也是 ngram 中的 unigram。

词袋模型的三部曲

分词（tokenizing）
统计修订词特征值（counting）
标准化（normalizing）

中文文本需要进行分词处理，这里用英文语料，极大地简化分词步骤。调用 scikit-learn 的 CountVectorizer 类来进行文本的词频统计与向量化。

from sklearn.feature_extraction.text import CountVectorizer vectorizer=CountVectorizer() corpus=["I come to China to travel", "This is a car polupar in China", "I love tea and Apple ", "The work is to write some papers in science"]

调用相关函数查看 CountVectorizer 类怎样进行词频统计和向量化

vectorizer.fit_transform(corpus)

Learn the vocabulary dictionary and return term-document matrix.

学习词典并且返回文档中的词对应的词向量矩阵

vectorizer.fit_transform(corpus).toarray()

所有词组成一个向量，每个位置的数字表示这个位置对应的单词在这句话中出现的次数

vectorizer.get_feature_names()

从索引值到特征名（每个单词）的映射

print(vectorizer.fit_transform(corpus)) # 部分结果 # (0, 4) 1 # 0表示第一个文档，4表示come的索引，1表示出现的次数（I为停用词） # (0, 15) 2 # 0表示第一个文档，15表示to的索引，2表示出现的次数（I为停用词） # (0, 3) 1 # (0, 16) 1 print(vectorizer.fit_transform(corpus).toarray()) [[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0] # 从下面可以看出 come 对应索引位置为4上的'1' [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0] [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0] [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]] print(vectorizer.get_feature_names()) ['and', 'apple', 'car', 'china', 'come', 'in', 'is', 'love', 'papers', 'polupar', 'science', 'some', 'tea', 'the', 'this', 'to', 'travel', 'work', 'write']

可以看到我们一共有19个词，所以4个文本都是19维的特征向量。而每一维的向量依次对应了下面的19个词。另外由于词"I"在英文中是停用词，不参加词频的统计。

由于大部分的文本都只会使用词汇表中的很少一部分的词，因此我们的词向量中会有大量的0。也就是说词向量是稀疏的。在实际应用中一般使用稀疏矩阵来存储。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于词袋模型的智能化机器人技术
2023-07-26 00:41

光子AI的博客机器学习”这个术语已经成为当今最火热的话题之一，由此带动了一股人工智能的潮流。在过去几年中，随着大数据、云计算等技术的发展，机器学习技术也变得越来越先进。然而，对于一些传统行业或互联网领域的应用场景来...
sklearn函数总结二——字典特征提取&文本特征提取词袋模型
2025-11-24 21:46

超能肝的小黑板的博客 DictVectorizer 是一个非常有用的工具，它用于将特征名称到特征值的映射字典（例如列表）转换为 scikit-learn 模型可以使用的数值矩阵。它的强大之处在于能同时处理分类特征（进行One-Hot编码）和数值特征（保持...
自然语言处理之文本分类：Logistic回归与词袋模型及TF-IDF
2025-05-11 21:49

zhubeibei168的博客 词袋模型(Bag of Words, BoW)是自然语言处理中一种常用的文本表示方法。它将文本数据转换为数值向量，以便机器学习算法可以处理。在词袋模型中，文档被表示为一个词的集合，忽略词序和语法，只考虑词的出现频率。每...
机器学习——CountVectorizer将文本集合转换为基于词频的特征矩阵
2025-08-15 21:58

星期天要睡觉的博客机器学习方法里常见的词向量表示方式vs深度学习方法里的词向量表示方式类别方法特点机器学习（传统词向量）主要是基于统计和矩阵分解的方法CountVectorizer（词袋模型）向量值 = 词频统计。文档 → 稀疏向量（几万维...
自然语言处理之语言模型：n-gram：高级n-gram模型：连续词袋模型
2025-06-07 22:16

zhubeibei168的博客 n-gram模型是一种基于统计的语言模型，用于预测序列中下一个词的概率。它基于一个假设：一个词的出现只依赖于它前面的n-1个词。1-gram（一元模型）：只考虑当前词出现的概率，不依赖于任何前词。2-gram（二元模型）...
自然语言处理：主题模型
2025-03-11 22:58

老赵爱学习的博客在自然语言处理(NLP)的广袤领域中，主题模型作为一种强大的工具，能够从大量文本数据中自动挖掘出潜在的主题结构。它为我们理解文本集合的语义内容提供了有力的支持，在信息检索、文本分类、文本摘要等众多任务中...
AI人工智能领域分类：智能时代的钥匙
2025-05-27 03:09

AI大模型应用之禅的博客了解AI人工智能领域的分类，有助于我们更好地把握其发展方向，挖掘其潜在价值。本文将涵盖AI领域的主要分类，包括但不限于机器学习、自然语言处理、计算机视觉、专家系统等，详细介绍每个领域的特点和应用。本文将...
sklearn——CountVectorizer详解
2018-09-02 22:32

九点澡堂子的博客 http://stackoverflow.com/questions/27488446/scikit-learn-countvectorizer http://www.itkeyword.com/doc/4813494854317445586/TfidfVectorizer-sklearn-CountVectorizer 这个链接写的很棒,主要参考他的： ...
【2025算法面试通关】【五.自然语言处理-传统NLP】【34.自然语言处理面试题解析：TF-IDF与词袋模型、隐马尔可夫模型（HMM）词性标注】
2025-04-09 21:52

再见孙悟空_的博客答：将文本视为无序的词集合，忽略语法和词序，通过统计词频构建向量表示，每个维度对应一个词，值为词频。
认识AI人工智能领域分类，拥抱智能时代
2025-05-25 17:08

AI应用开发实战派的博客本文章的目的是全面介绍AI人工智能领域的分类，让读者对人工智能有一个系统、深入的认识。范围涵盖了人工智能的主要领域，包括但不限于机器学习、自然语言处理、计算机视觉、机器人技术等。本文预期读者包括对人工...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 4月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 4月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月24日

CountVectorizer()函数初始化词袋模型

1条回答 默认 最新

问题事件

1条回答默认最新