CountVectorizer

用CountVectorizer做情感分析，报错为：InvalidParameterError: The 'stop_words' parameter of CountVectorizer must be a str among {'english'}, an instance of 'list' or None. 求大神指点！

from sklearn.feature_extraction.text import CountVectorizer

def get_custom_stopwords(stop_words_file):
    with open(stop_words_file) as f:
        stopwords = f.read()
    stopwords_list = stopwords.split('\n')
    custom_stopwords_list = [i for i in stopwords_list]
    return custom_stopwords_list

stop_words_file = '哈工大停用词表.txt'  #设置停用词
stopwords = get_custom_stopwords(stop_words_file)

vect = CountVectorizer(max_df = 0.8, 
                       min_df = 3, 
                       token_pattern=u'(?u)\\b[^\\d\\W]\\w+\\b', 
                       stop_words=frozenset(stopwords))

#划分数据集
X = data['cut_comment']
y = data.sentiment

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=22)

test = pd.DataFrame(vect.fit_transform(X_train).toarray(), columns=vect.get_feature_names())
test.head()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-03-12 16:32
关注
引自免费微信小程序：皆我百晓生

在使用CountVectorizer时，你尝试从一个自定义的停用词文件中加载停用词列表，并将其传递给stop_words参数。然而，stop_words参数期望接收的是字符串（'english'）、列表实例或None，而你的代码将停用词处理为了一个frozenset对象。

修正这个问题的方法是直接将读取到的自定义停用词列表传递给stop_words参数，而不是转换为frozenset。请参考以下修改后的代码：

from sklearn.feature_extraction.text import CountVectorizer def get_custom_stopwords(stop_words_file): with open(stop_words_file, 'r', encoding='utf-8') as f: # 增加编码方式以确保正确读取文本文件 stopwords = f.read() stopwords_list = stopwords.split('\n') custom_stopwords_list = [i for i in stopwords_list if i] # 移除可能存在的空行 return custom_stopwords_list stop_words_file = '哈工大停用词表.txt' # 设置停用词 stopwords = get_custom_stopwords(stop_words_file) vect = CountVectorizer(max_df=0.8, min_df=3, token_pattern=u'(?u)\\b[^\\d\\W]\\w+\\b', stop_words=stopwords) # 将stopwords修改为list类型

现在vect实例将会正确使用你自定义的停用词列表来进行文本特征提取。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

关于#takes 1 positional argument but 2 were given #的问题，如何解决？(语言-python) python sklearn 机器学习
2022-05-26 18:58

回答 2 已采纳好像是参数位置变了。你题目中13行改成这个试试self.vectorizer = CountVectorizer(max_df=max_df, stop_words=stopwords, ngram_
AttributeError: 'numpy.ndarray' object has no attribute 'toarray' python sklearn 有问必答机器学习
2022-04-26 05:38

回答 2 已采纳之前TruncatedSVD.transform返回一个数组，而不是稀疏矩阵，所以不能用toarray
在 TF-IDF 特征提取的基础上对模型建立与评估 python 逻辑回归
2023-02-11 22:48

回答 4 已采纳 import numpy as np import pandas as pd import time import jieba import re import string import pick
自然语言处理使用python
2024-04-10 09:51

Python作为一种语法简洁、库丰富的编程语言，成为了NLP领域首选的工具之一。本篇文章将深入探讨使用Python进行自然语言处理的一些核心知识点。首先，Python中的基础NLP库是必不可少的。NLTK（Natural Language ...
机器学习去除停用词问题 sklearn 机器学习
2022-10-25 13:23

回答 1 已采纳 data是个表啊for word in data:word是个行吗？
TF-IDF特征选取和划分数据集 python
2023-02-10 22:12

回答 2 已采纳首先，我们需要把文本数据处理为特征矩阵。这可以使用sklearn库中的CountVectorizer和TfidfTransformer实现： # 实例化CountVectorizer vectoriz
AttributeError: 'float' object has no attribute 'lower' python sklearn 有问必答机器学习
2022-04-25 16:45

回答 3 已采纳 float型数据不支持lower()方法，报错的位置先转成str，再使用lower()
NLP-with-Python-master
2024-01-23 16:08

Python作为一门易学且功能强大的编程语言，已经成为NLP领域的首选工具。本资料集“NLP-with-Python-master”涵盖了Scikit-Learn、NLTK、Spacy、Gensim和Textblob等关键库，它们各自在NLP中扮演着不可或缺的角色。 1...
使用pandas进行数据归一化一些问题 python 机器学习
2022-04-14 10:56

回答 1 已采纳可尝试修改 data=pd.read_csv('dating.txt', encoding = 'gbk')
nlp：自然语言处理库
2021-02-04 06:10

在Python编程语言中，有许多强大的NLP库可以帮助开发者实现这些功能。本篇文章将深入探讨NLP库的核心概念、功能以及它们在实际应用中的重要性。 1. **NLTK（Natural Language Toolkit）**： NLTK是Python中最老牌...
自然语言处理（NLP）—— 语言检测器
2024-06-04 00:01

思诺学长-刘竞泽的博客为了分类任务，我们定义一个函数 `gender_features`，该函数基于名字的内在属性来提取特征。在这个例子中，我们使用的第一个属性是...这为进一步优化分类模型提供了基础，也展示了NLTK在自然语言处理任务中的强大功能。
Python人工智能(自学)应用一.自然语言处理(2)
2023-07-04 22:38

编程爱好者^O^的博客 # 从sklearn.feature_extraction.text中导入CountVectorizer from sklearn.feature_extraction.text import CountVectorizer # 创建CountVectorizer对象，并存储在vect中 vect = CountVectorizer(max_features=15) ...
大数据编程技术——期末复习
2020-12-09 09:16

威少的书童的博客 Scala语言特点 Lambda演算的概念类（静态类和动态类）、方法和函数的声明数据类型，Int、String、Double、Boolean、Array、List、Map、Tuple 常量和变量的声明运算符，特别注意Lambda运算符选择语句 for循环语句...
毕业设计：基于Python的自然语言处理系统.zip
2023-10-16 16:30

本项目“基于Python的自然语言处理系统”是一份计算机科学专业的毕业设计，旨在利用Python编程语言开发一个能够处理自然语言的系统。Python因其丰富的库支持和易读性，成为数据科学和自然语言处理（NLP）领域广泛...
域名分析的python编程
2018-07-19 01:18

Python作为一种强大的编程语言，因其丰富的库支持和简洁的语法，常被用于进行此类分析。本文将深入探讨如何利用Python进行域名分析，特别是基于域名的词袋模型（Bag-of-Domains，BoD）实现。首先，了解域名分析的...
自然语言处理和文本分析系统的设计与实现
2024-09-22 20:06

sj52abcd的博客而Python作为目前最受欢迎的编程语言之一，已经成为自然语言处理和文本分析领域的研究热点。本文将探讨如何利用Python进行自然语言处理和文本分析，为各个领域的决策提供有力支持。研究或应用的意义: 自然语言处理...
NLP自然语言处理-机器学习和自然语言处理介绍（一）
2022-07-21 16:40

皇儒无上的博客 8.NLP常用工具（1）NLP常用编程语言 ①　引擎开发：C++和 Java居多 ②　算法实验：python，R C++，Java的特点：执行效率高，开发累(代码量大)，不好上手，有助于深入理解编程，有成熟的框架和各种检查工具。...
大语言模型在金融风控中的应用
2024-03-09 11:52

光剑书架上的书的博客大语言模型（Large Language Models, LLMs）通过在大规模文本数据上进行预训练，具备了强大的语言理解和生成能力。这些模型不仅能够处理结构化数据，还能从非结构化文本中提取有价值的信息，从而为金融风控提供了新...
从朴素贝叶斯到N-gram语言模型_CodingPark编程公园
2020-04-19 13:11

TEAM-AG的博客从朴素贝叶斯到N-gram语言模型文章介绍在本文中你将会学到朴素贝叶斯是什么、朴素贝叶斯有什么应用、实际工程上的小技巧等 N-grame是什么、它比朴素贝叶斯好在哪里等目录朴素贝叶斯 N-gram语言模型两个实例...
Python在自然语言处理领域的应用 Natural Language Processing With Python: Analyzing Text
2023-08-05 01:45

光剑书架上的书的博客在自然语言处理领域，Python被视作最优秀、应用范围最广泛、社区氛围最活跃、学习曲线最平缓的一门编程语言。它提供丰富的库函数和框架支持，有着庞大的生态系统，包括机器学习库scikit-learn、NLP工具包nltk等，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月12日
展开全部

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

CountVectorizer

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新