求解：Python主题模型停用词过滤失效

对微博文本进行LDA模型分析，但出来的关键词结果中总是包含停用词。

附上前期预处理部分的代码，可以请老哥们指导一下哪里出现问题了吗？万分感谢！

import os
import pandas as pd
import re
import jieba
import jieba.posseg as psg


####### 预处理

output_path = '/Users/mac/Desktop/pycharm/lda/result' 
file_path = '/Users/mac/Desktop/pycharm/lda/data' 
os.chdir(file_path)
data = pd.read_excel("data.xlsx")  
os.chdir(output_path)
dic_file = "/Users/mac/Desktop/pycharm/lda/dict.txt" 
stop_file = "/Users/mac/Desktop/pycharm/lda/stop_dic/stopwords.txt" 

def chinese_word_cut(mytext):
    jieba.load_userdict(dic_file) 
    jieba.initialize() 

    # 加载停用词词典
    try:
        stopword_list = open(stop_file, encoding='utf-8')
    except:
        stopword_list = []
        print("error in stop_file")
        
    stop_list = [] 
    flag_list = ['n', 'nz', 'vn'] 
    for line in stopword_list:
        line = re.sub(u' ', '', line)
        stop_list.append(line)
    word_list = []

    # jieba分词
    seg_list = psg.cut(mytext)
    for seg_word in seg_list:
        word = re.sub(u'[^\u4e00-\u9fa5]','',seg_word.word)  
        # word = seg_word.word 
        find = 0 
        for stop_word in stop_list:
            if stop_word == word or len(word) < 2:  
                find = 1
                break
        if find == 0:  # and seg_word.flag in flag_list 如英语文本，则需注释后半部分
            word_list.append(word) 
    return " ".join(word_list)

data["content_cutted"] = data.content.apply(chinese_word_cut)

运行结果及报错内容

Topic #0:
一个 这个 未来 元周 可能 就是 我们 自己 什么 世界
Topic #1:
市场 全球 科技 免税 游戏 股份 行业 零售 关注 集团
Topic #2:
可以 盲盒 游戏 社交 用户 现实 世界 元气 平台 使用
Topic #3:
国际 消费 首届 消费品 企业 全球 博览会 发展 品牌 参展
Topic #4:
频道 国际 海南省 旅游 官方 卫视 博览会 消费品 免税 微博

尝试过在停用词文档中重新添加，但并不可行，求问是读取代码出错了吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
於黾 2022-09-06 16:56
关注
直接整篇文章替换字符串，不要先分解成单个汉字
你用文章里的单个汉字去跟词典进行比较，当然不一致了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

求解：Python主题模型停用词过滤失效 python 中文分词语言模型
2022-09-06 16:46

回答 1 已采纳直接整篇文章替换字符串，不要先分解成单个汉字你用文章里的单个汉字去跟词典进行比较，当然不一致了
关于#python#的问题：python列表for遍历循环求解 python 有问必答
2022-04-06 13:31

回答 3 已采纳这样？ lst=[] lst.append(['俄罗斯',1709.8,1.43]) lst.append(['加拿大',998.48,0.35]) lst.append(['中国',960.0,13
求解python编程问题 python 有问必答
2022-03-17 16:58

回答 1 已采纳望采纳 import operator b=[] c=[] d=[] while True: a=input('请输入学生的学号，姓名，性别，三门课成绩：') a=a.split('
数学建模：微分方程模型— Python 求解
2022-04-26 17:29

Charle4Leclerc的博客数学建模微分方程模型的 Python 求解使用显式欧拉法和四阶龙格库塔法计算Lorenz模型scipy.integrate.odeint 求解微分方程模型scipy.integrate.solve_ivp 求解微分方程模型使用 Python 求常微分方程的数值求解通常...
Python问题编程求解， python
2022-11-21 10:45

回答 2 已采纳 import random # 求两个数的最小公倍数 def lcm(x, y): a = x b = y while y: x,y = y, x % y
C++编程问题求解:9634: 孙悟空喝水 c++
2022-02-07 16:42

回答 2 已采纳这题其实源于一道趣味的数学故事：孙悟空连忙上前，准备把这杯牛奶喝了，可主人家却说：“大圣且慢，如果您想喝这杯奶就必须回答对一道数学题。孙悟空想，不就一道数学题吗，难不倒俺老孙。孙悟空就答应了。那位主人
python 使用概率模型求解：寝室8个人里有三个人星座相同的概率是多少？ python 有问必答
2021-06-30 12:07

回答 1 已采纳 import numpy as np #导入numpy from numpy import random #导入random #分析，一共有12个星座，一个宿舍8个人，问一个宿舍
LDA主题模型及python实现
2019-01-05 21:58

十三吖的博客 LDA主题模型是一种文档生成模型，是一种非监督机器学习技术。它认为一篇文档是有多个主题的，而每个主题又对应着不同的词。一篇文档的构造过程，首先是以一定的概率选择某个主题，然后再在这个主题下以一定的概率...
求解Python编程题谢谢大家 python
2021-06-06 20:19

回答 1 已采纳 name = input("请输入姓名") print("你好，" + name + "同学。") print(name[0] + "同学，很高兴认识你。") print(name[1] +
关于#python#的问题：python爬虫 python 爬虫
2023-04-06 21:17

回答 2 已采纳根据代码片段，您的问题可能出现在XPath表达式上。您在获取评论列表的Xpath表达式中使用了.format(j)，但是您并没有在字符串中使用花括号来表示要替换的值。因此，.format(j)部分被忽
Python语言求解了啊各位 python 有问必答
2022-03-25 21:10

回答 2 已采纳代码在哪呢？
python编程基础：python 实现GUI(图形用户界面)编程详解
2020-03-14 21:59

老程序员阿福的博客今天小编就为大家分享一篇python 实现GUI(图形用户界面)编程详解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧 Python支持多种图形界面的第三方库，包括： wxWidgets Qt GTK Tkinter： Tkinter...
python编程快速上手习题求解 6.7实践项目表格打印 python
2022-05-16 16:52

回答 2 已采纳 1.不设置这个列表，那你的len往哪里导入呢你当然也可以先设置一个空列表[]，然后一个一个的append进去，那跟len就没有关系了，反正你循环次数是根据len来进行的2.可以换位置，但是你的缩进也要
人工智能开发语言 python,python人工智能编程教程
2022-10-10 15:18

快乐的小肥熊的博客 Python作为人工智能首选编程语言，随着人工智能时代的到来，Python开发效率非常高，Python有非常强大的第三方库，基本上你想通过计算机实现任何功能，Python官方库里都有相应的模块进行支持，直接下载调用后，在基础...
少儿学编程系列 --- 使用python程序暴力求解：数学游戏 24 Game的答案
2022-03-17 19:15

enjoy编程的博客 24 Game是一个数学游戏，玩起来...可以通过Python程序使用`暴力`来求解这个问题。4个数字最多可以表示`24×5×4×4×4` = 7680个不同的表达式。这对于采用人工的方式计算，似乎很难，但用计算机程序来求解却相对容易。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月6日

悬赏问题

¥15 请问读取环境变量文件失败是什么原因？
¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载

求解：Python主题模型停用词过滤失效

对微博文本进行LDA模型分析，但出来的关键词结果中总是包含停用词。

运行结果及报错内容

尝试过在停用词文档中重新添加，但并不可行，求问是读取代码出错了吗？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新