jieba词频统计中去除停用词的问题


import jieba
file_userDict = 'add_word_list.txt'
jieba.load_userdict(file_userDict)
import re
stop_file = "stopwordlist.txt"
try:
    stopword_list = open(stop_file,encoding ='utf-8')
except:
    stopword_list = []
    print("error in stop_file")
stop_list = []
for line in stopword_list:
    line = re.sub(u'\n|\\r', '', line)
    stop_list.append(line)
f=open("法律（新）\服务贸易\中华人民共和国海南自由贸易港法(FBM-CLI.1.5015177).txt","r",encoding='utf-8')
txt=f.read()
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) ==1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
items

我想做个先去除停用词然后对文本进行分词并词频统计的代码，然而这个代码最后得出的词频统计并没有去除停用词，请问该怎么修改呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

「已注销」 2023-03-08 03:31

关注

参考gpt和自己的思路，在代码中，你已经成功读取并生成了停用词列表stop_list，可以在统计词频时添加一个判断，如果单词出现在停用词列表中，则不加入词频统计。下面是修改后的代码：


import jieba
import re

file_userDict = 'add_word_list.txt'
jieba.load_userdict(file_userDict)

stop_file = "stopwordlist.txt"
try:
stopword_list = open(stop_file, encoding='utf-8')
except:
stopword_list = []
print("error in stop_file")
stop_list = []
for line in stopword_list:
line = re.sub(u'\n|\r', '', line)
stop_list.append(line)

f = open("法律（新）\服务贸易\中华人民共和国海南自由贸易港法(FBM-CLI.1.5015177).txt", "r", encoding='utf-8')
txt = f.read()
words = jieba.lcut(txt)
counts = {}
for word in words:
if len(word) == 1 or word in stop_list: # 判断单词长度是否为1或者是否出现在停用词列表中
continue
else:
counts[word] = counts.get(word, 0) + 1
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
print(items) # 输出词频统计结果

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

Lowpoly风街霸角色布兰卡（Blanka）Blender源文件
2020-11-03 16:16

Lowpoly风街霸角色布兰卡（Blanka）Blender源文件老王的原创教程见《手把手带你Godot游戏开发第二弹】名场面临摹之街霸3D》 https://orzgame.blog.csdn.net/article/details/109402316
Lowpoly风街霸角色维加（Vega）Blender源文件
2020-11-04 15:19

Lowpoly风街霸角色维加（Vega）Blender源文件老王的原创教程见《手把手带你Godot游戏开发第二弹】名场面临摹之街霸3D》 https://orzgame.blog.csdn.net/article/details/109402316
街霸：隆的模型（不含绑定）Blender源文件
2020-11-01 09:12

《【手把手带你Godot游戏开发第二弹】名场面临摹之街霸3D》中使用的模型教程地址：https://orzgame.blog.csdn.net/article/details/109402316
街霸StreetFighter.zip
2024-04-25 14:48

祝愿你在这个毕业设计项目中取得巨大进步，顺利毕业！但强调一下，这些项目源码仅供学习和研究之用。在使用这些资源时，请务必遵守学术诚信原则和相关法律法规，不得将其用于任何商业目的或侵犯他人权益的行为。...
林亦LYi 街霸 AI 训练资料
2023-04-19 23:05

林亦LYi 街霸 AI 训练资料
街霸游戏源码J2ME
2021-04-02 17:51

街霸游戏源码J2ME，该游戏的源码比较完整，功能也很齐全，而且游戏的源码也比较清晰，界面还可以，值得大家java游戏开发的朋友可以下载研究看看。
少年街霸游戏程序
2017-10-29 17:11

少年街霸游戏，小时候经常玩的游戏，可以回忆下童年。
少年街霸图标下载
2020-12-25 00:59

……………………该文档为少年街霸图标下载，是一份很不错的参考资料，具有较高参考价值，感兴趣的可以下载看看
街霸html源代码，小时候经常玩的游戏，打开就能玩.rar
2020-03-27 11:53

街霸html5，能实现大战电脑或双人对战。小时候经常去街机厅玩的游戏。适合初学js编程者学习源代码。缺点是大招有点难搓出来。欢迎优化代码。第一次发布，大佬不喜勿喷。
“老年”程序员带你用Python玩街霸，你的童年用编程实现也很简单
2021-12-06 16:35

Java进阶营菌的博客街霸应该是很多80后和大龄90后的童年记忆，虽然现在已经不再碰了，但是，并不妨碍对其的喜爱。今天来简单实现一下街霸的运作，如果是资深程序员，可以不用看下去。现在我们在D盘的python-learning目录中创建 ko_...
电子-街霸.zip
2019-09-05 12:16

电子-街霸.zip,单片机/嵌入式STM32-F0/F1/F2
角色模型街霸4.zip
2021-04-19 18:35

街霸隆的3D模型
街霸：维加（Vega）建模及模型下载
2020-11-04 15:20

开发游戏的老王的博客文章目录效果图三视图渲染图下载地址效果图三视图渲染图下载地址街霸：维加（Vega）模型下载
街头霸王十二人街霸全人物招数战术详解.doc
2021-10-10 18:35

街头霸王十二人街霸全人物招数战术详解.doc
Java手机街霸游戏源码.rar
2019-07-10 12:13

Java手机街霸游戏源码，以前的j2me游戏源码，打拳游戏，在电子游戏室玩的那种，源码包内带完整资源文件，现在看来，Android游戏也在此基础上扩展，学好j2me对编写Android游戏相当有用。
街霸5服务器链接已中断,《街头霸王5》常见问题解决方法
2021-07-29 03:23

weixin_39864261的博客方法1、建大厅后输入对方战士ID方法2、CFN中搜索战士ID，并添加此人到收藏方法3、任何对战后查看对方ID，选择添加到收藏网战幻灯片怎么办？对战设置(PS4按OPTION，PC按ENTER)中，将【连接状态】改为4-5 会好很多。...
街霸隆（Ryu）升龙拳（Syoryuken）动画（一）关键姿势
2020-10-13 11:18

开发游戏的老王的博客效果图关键姿势（Key Pose）首帧的Idle 蓄力最高点下降 ...注意：由于这个动画的角色在Z轴方向旋转了360度（欧拉模式），所以，尾帧的Idle是将首帧Idle姿态复制后将腰部的控制器Z轴值增加360度得来的。...
Blender Rigify版街霸角色隆（Ryu）绑定下载
2020-10-11 19:51

Blender Rigify版街霸角色隆（Ryu）绑定下载，隆的模型是由国外艺术家watchmeanimate设计的一个Lowpoly角色，原始文件是Maya格式，在Gumroad上免费下载。我将它转换成Blender格式并使用Rigify进行绑定
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 3月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月8日

悬赏问题

¥15 matlab中使用gurobi时报错
¥15 WPF 大屏看板表格背景图片设置
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂

jieba词频统计中去除停用词的问题

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新