请问停用词过滤txt没起作用怎么办？

以下是我的代码：

import jieba
import os
import warnings
warnings.filterwarnings('ignore')  
from gensim.corpora.dictionary import Dictionary
from gensim.models.ldamodel import LdaModel
from wordcloud import WordCloud
import matplotlib.pyplot as plt

textfile=input("输入文本文件名：")
num_topics=int(input("话题数："))
f=open(textfile, "r",encoding="utf-8")
lines=f.readlines()
f.close()

stoplist=open(r'C:\Users\26552\Desktop\stopword.txt','r',encoding="utf-8").read()
stoplist = set(w.strip() for w in stoplist)

segtexts=[]
for line in lines:
    doc=[]
    for w in list(jieba.cut(line,cut_all=True)):
        if len(w)>1 and w not in stoplist:
            doc.append(w)
    segtexts.append(doc)
dictionary = Dictionary(segtexts)
dictionary.filter_extremes(2,1.0,keep_n=1000)
corpus = [dictionary.doc2bow(text) for text in segtexts]
lda = LdaModel(corpus,id2word=dictionary, num_topics=num_topics)
topics=lda.print_topics(num_topics=num_topics,num_words=10)
print(topics)

font = r'C:\Users\26552\Desktop\simfang.ttf'
wc=WordCloud(collocations=False, font_path=font, width=2800, height=2800, max_words=20,margin=2)
for topicid in range(0,num_topics):
    tlist=lda.get_topic_terms(topicid, topn=20)
    
    wdict={} 
    for wv in tlist:
        wdict[ dictionary[wv[0]]]=wv[1]
    print(wdict)
    wordcloud = wc.generate_from_frequencies(wdict)
    wordcloud.to_file('topic_'+str(topicid)+'.png')

这是停用词文本文档：

路径没有问题，请问老哥们，是我的代码哪里出问题了吗？

如能指正，不胜感激！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-06-03 02:59
关注
问题出在这行stoplist = set(w.strip() for w in stoplist)，stoplist是从文件中读取出来的字符串，不是列表，遍历取出的是单个字符，不是停用词，所以后面停用词过滤失效。这样改一下就行了：

stoplist = set(w for w in stoplist.split('\n'))#对停用词文本按行分割成列表，每个元素就是停用词 #或者直接用列表更简洁： stoplist = [w for w in stoplist.split('\n')]

如对解答满意，请点击采纳一下。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

请问停用词过滤txt没起作用怎么办？ python 有问必答
2021-06-03 02:19

回答 3 已采纳问题出在这行stoplist = set(w.strip() for w in stoplist)，stoplist是从文件中读取出来的字符串，不是列表，遍历取出的是单个字符，不是停用词，所以后面停用
Python如何进行停用词、词性过滤、去掉长度为1的字 python
2023-01-05 18:49

回答 2 已采纳给你写了一个参考示例代码，希望对你有帮助，望采纳 # 导入必要的库 import jieba.posseg as pseg # 加载停用词 stopwords = set() with open("
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 23:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
基于python的上市公司年报分析（pdf转txt，停用词过滤，关键词分析，文本分析）
2022-04-09 08:42

人工智能_项目实践_上市公司年报_基于python的上市公司年报分析（pdf转txt，停用词过滤，关键词分析，文本分析）
python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 11:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
python用merge数据合并空值怎么办？ python
2020-10-30 23:39

回答 1 已采纳 merge使用并进行连接前，要注意对连接的关键字做字符化或者整型化，保证连接的关键字值和类型一致。
python进行pip安装是弹出黄色警告怎么办？ django flask python
2021-02-10 22:12

回答 3 已采纳可以更换一下镜像, `pip install some_package --index https://pypi.mirrors.ustc.edu.cn/simple/` 清华源中国科技大学 h
停用词过滤---Python自然语言处理（4）
2021-03-20 12:45

李元静的博客所以，进行自然语言处理时，我们一般将停用词过滤掉。而HanLP库提供了一个小巧的停用词字典，它位于Lib\site-packages\pyhanlp\static\data\dictionary目录中，名字为：stopwords.txt。该文本收录了常见的中英文...
Python连接mysql，插入数据不成功怎么办？ python
2020-06-09 21:55

回答 3 已采纳你第一句代码就偷懒了，还是老老实实的写好一点。没报错，是因为你用try...except规避错误了。想知道错误是什么，就让它给你报个错。 except Exception as e:
请问这个python怎么做？ python
2021-09-22 11:27

回答 2 已采纳【参考代码】 # @author: By yangbocsu # @date: 2021/9/22 a,b,c,d,e,f = map(int,input().split(',')) delt
python英文去停用词，报错 'str' object has no attribute python 自然语言处理
2017-02-11 13:05

回答 4 已采纳 w本身就是str字符串，没有word这个属性。你是不是可以直接使用w
python怎么过滤停用词_第6天：文本处理流程——停用词的过滤、正则化操作
2020-12-29 09:07

weixin_39820226的博客当然停用词过滤，是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声。比如：的、是、啊等。在英文里，我们经常会遇到比如“the”，“an”，“their”等这些都可以作为停用词来处理，但是也考虑自己的应用...
python/pycharm安装requests时错误怎么办？ python
2020-03-21 15:48

回答 2 已采纳你可以试下在Terminal那里直接下urllib这个模块，这个模块里面有requests ``` pip install urllib ``` 下载好之后再直接import就可以了
python怎么过滤停用词_学习NLP的第7天——基于HanLP实现的停用词过滤
2020-12-29 09:07

闲吟客的博客这里主要记录我在学习过程中整理的知识、调试的代码和心得理解，以供其他学习的...停用词过滤是语言文本预处理的一个重要步骤，有两种常用的情景：将分词结果中的停用词剔除直接将文本中的停用词替换为*或移除下面...
python怎么过滤停用词,Python的HTML与美丽的汤和过滤停用词解析
2021-01-12 08:48

weixin_39766071的博客 This code is written in python and I am not very good at it, and I am just using this parser to get information which I can manually enter but I would rather not. Any help on how to do this in detail...
没有解决我的问题, 去提问

悬赏问题

¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）
¥15 AIC3204的示例代码有吗，想用AIC3204测量血氧，找不到相关的代码。

请问停用词过滤txt没起作用怎么办？

3条回答 默认 最新

悬赏问题

3条回答默认最新