python小白想请问一下怎样对一个txt文本进行停用词过滤（有停用词表）的代码应该如何编写，求教！

import matplotlib.pyplot as plt #数据可视化
import jieba #词语切割
import wordcloud #分词
from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS #词云，颜色生成器，停止词
import numpy as np #科学计算
from PIL import Image #处理图片


def ciyun():
    with open('夺冠.txt','r',encoding='gbk') as f:  #打开新的文本转码为gbk
        textfile= f.read()  #读取文本内容
    wordlist = jieba.lcut(textfile)#切割词语
    space_list = ' '.join(wordlist) #空格链接词语
    #print(space_list)
    backgroud = np.array(Image.open('6.jpg')) 

     
    wc = WordCloud(width=1400, height=2200,
            background_color='white',
            mode='RGB', 
			mask=backgroud, #添加蒙版，生成指定形状的词云，并且词云图的颜色可从蒙版里提取
			max_words=500,
            stopwords=STOPWORDS.add('我',),#内置的屏蔽词,并添加自己设置的词语
            font_path='C:\Windows\Fonts\msyh.ttc',
			max_font_size=400,
            min_font_size=25,
			relative_scaling=0.1, #设置字体大小与词频的关联程度
			random_state=50, 
			scale=2 
			).generate(space_list) 
			
    image_color = ImageColorGenerator(backgroud)#设置生成词云的颜色，如去掉这两行则字体为默认颜色
    wc.recolor(color_func=image_color)
    
    plt.imshow(wc) #显示词云
    plt.axis('off') #关闭x,y轴
    plt.show()#显示
    wc.to_file('test1_ciyun.jpg') #保存词云图

    
def main():
    ciyun()
 
if __name__ == '__main__':
    main()

这段代码可以运行但有些停用词无法过滤，请教各位大佬应该如何在这段代码中插入、编写过滤停用词表的代码。

过滤停用词表为cn_stopwords.txt

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ykf173 2021-01-13 16:15
关注
提供个思路，code自己写：

1.对文本进行中文分词，建议用jieba(0.4.0之后支持paddle分词，准确率更高，速度更慢)

2.停用词放到列表中，循环判断，不在列表中的就不是停用词，可以写到新的列表中，或者删除当前文本中的停用词。

3.列表转字符串就行了。

小提示：有一些其他自己不想要的停用词，可以自己定义，放到停用词表中。

解决 2

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 数据预处理：对文件夹下的多个文本进行去停用词和分词 nlp python 数据分析
2023-04-19 19:59

回答 2 已采纳使用Python中的os和glob库来实现对文件夹下的多个文本进行去停用词和分词。
请问停用词过滤txt没起作用怎么办？ python 有问必答
2021-06-03 02:19

回答 3 已采纳问题出在这行stoplist = set(w.strip() for w in stoplist)，stoplist是从文件中读取出来的字符串，不是列表，遍历取出的是单个字符，不是停用词，所以后面停用
Python创建不重复词表 python 有问必答
2021-06-14 09:55

回答 4 已采纳用set就能不重复 def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help',
文本分析--停用词集合（结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等）.txt
2022-08-09 18:53

文本分析--停用词集合（结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等）.txt文本分析--停用词集合（结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等）.txt
提取关键词，加载停用词表时好时坏，总是报错 python 算法
2022-11-08 11:49

回答 1 已采纳这个要变成 len(corpus) - 1 哦，比如 corpus 长度为 7 ，而 randint 可能会取到 7 .数组的索引是 (0) 到 (len-1)。取到 len 的话这个就超出了数组
python 运行这段代码进入循环后退出 python 有问必答
2022-03-12 10:37

回答 3 已采纳你的意思是函数执行后没有打印输出还是?TranslateFile函数需要读取.\dst_dir目录下的文件读取,读取的PDF类文件,你的目录下放置文件了吗,还是路径不对
为什么去除停用词准确率反而下降？ python
2021-08-21 12:14

回答 1 已采纳那就说明压根不是停用词
文本分词常用中文停用词表
2023-03-31 13:01

使用jieba分词时，需要载入停用词表，这四个是常用的停用词表，文件名对应如下：中文停用词表 cn_stopwords.txt 哈工大停用词表 hit_stopwords.txt 百度停用词表 baidu_stopwords.txt 四川大学机器智能实验室...
机器学习去除停用词问题 sklearn 机器学习
2022-10-25 13:23

回答 1 已采纳 data是个表啊for word in data:word是个行吗？
中文文本分类数据预处理 python 有问必答
2022-04-13 06:36

回答 3 已采纳你的是简单清洗处理，如果要分词，用jieba模块可以满足你需求
在 TF-IDF 特征提取的基础上对模型建立与评估 python 逻辑回归
2023-02-11 22:48

回答 4 已采纳 import numpy as np import pandas as pd import time import jieba import re import string import pick
停用词表停用词.txt
2020-08-31 11:22

停用词表.txt
输出词向量词汇中总是夹杂着编码怎么解决 nlp python 深度学习
2022-05-31 12:29

回答 2 已采纳【有帮助请采纳】看它的编码方式是哪一种，然后可以用encode函数与decode函数进行字符串的编码与解码例如： s = '123' a = s.encode('utf-8') print(a)#
python处理txt停用词_如何用python对一个文件夹下的多个txt文本进行去停用词。
2020-12-18 12:50

weixin_39593498的博客在用 for 循环去停用词的部分，出错，仅去掉了 stopwords 中的部分停用词，且相同停用词只去除了一次。求大神告知错误之处，贴上代码再好不过！！#encoding=utf-8import sysimport reimport codecsimport osimport ...
停用词表（包含常见的停用词表，以及汇总停用词表）
2022-05-01 12:49

常用的停用词表，包括哈工大(hit)、百度(baidu)、四川大学机器智能实验室停用词库（scu)、中文停用词表(cn)，以及汇总的停用词表(all)
常用停用词表.txt
2020-02-02 15:21

停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些停用词都是人工输入、非自动化生成的，生成...
百度停用词词表baidustop.txt
2021-03-02 23:20

百度停用词词表，亲测可用
5个常用的停用词表中文停用词表哈工大停用词表百度停用词表四川大学机器智能实验室停中文大全版用词库
2023-05-03 21:23

中文停用词表 cn_stopwords.txt 哈工大停用词表 hit_stopwords.txt 百度停用词表 baidu_stopwords.txt 四川大学机器智能实验室停用词库 scu_stopwords.txt 中文大全版 cn_all_stopwords.txt
主要包含了四个提用词文件，可以供大家选择 停用词文件中文停用词表cn-stopwords.txt哈工大停用词表hit
2023-07-26 17:57

主要包含了四个提用词文件，可以供大家选择。 停用词文件主要包含了四个提用词文件，可以供大家选择。 停用词文件主要包含了四个提用词文件，可以供大家选择。 停用词文件主要包含了四个提用词文件，可以供大家...
停用词表.txt
2023-10-20 14:53

数据集
没有解决我的问题, 去提问

悬赏问题

¥20 删除和修改功能无法调用
¥15 kafka topic 所有分副本数修改
¥15 小程序中fit格式等运动数据文件怎样实现可视化？（包含心率信息））
¥15 如何利用mmdetection3d中的get_flops.py文件计算fcos3d方法的flops？
¥40 串口调试助手打开串口后,keil5的代码就停止了
¥15 电脑最近经常蓝屏，求大家看看哪的问题
¥60 高价有偿求java辅导。工程量较大，价格你定，联系确定辅导后将采纳你的答案。希望能给出完整详细代码，并能解释回答我关于代码的疑问疑问，代码要求如下，联系我会发文档
¥50 C++五子棋AI程序编写
¥30 求安卓设备利用一个typeC接口，同时实现向pc一边投屏一边上传数据的解决方案。
¥15 SQL Server analysis services 服务安装失败

python小白想请问一下怎样对一个txt文本进行停用词过滤（有停用词表）的代码应该如何编写，求教！

2条回答 默认 最新

悬赏问题

2条回答默认最新