python 中文分词去停用词问题

本人菜鸟，要对lon文件夹下的20个txt文档进行中文分词，且去停用词，停用词表stopword.txt，运行结果并没有去除停用词，求大神解答代码如下
#encoding=utf-8

import sys

import re

import codecs

import os

import shutil

import jieba

import jieba.analyse

#导入自定义词典

#jieba.load_userdict("dict_baidu.txt")

stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword.txt') ])
#Read file and cut

def read_file_cut():

#create path

path = "lon\"

respath = "lon_Result\"

if os.path.isdir(respath):

shutil.rmtree(respath, True)

os.makedirs(respath)

num = 1  
while num<=20:  
    name = "%d" % num   
    fileName = path + str(name) + ".txt"  
    resName = respath + str(name) + ".txt"  
    source = open(fileName, 'r')  
    if os.path.exists(resName):  
        os.remove(resName)  
    result = codecs.open(resName, 'w', 'utf-8')  
    line = source.readline()  
    line = line.rstrip('\n')  

    while line!="":  
        line = unicode(line, "utf-8")  
        seglist = jieba.cut(line,cut_all=False)  #精确模式  
        output = ' '.join(list(seglist))         #空格拼接  
        for seg in seglist:
            seg=seg.encode('gbk')
            if seg not in stopwords:
                    output+=seg
                    print output
        result.write(output + '\r\n')
        line = source.readline()  
    else:  
        print 'End file: ' + str(num)  
        source.close()  
        result.close()  
    num = num + 1  
else:  
    print 'End All'

#Run function

if name == '__main__':

read_file_cut()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_34633970 2016-11-08 11:29
关注
path="lon\"
两个\
你现在这个结果跑出来没?我也是在网上找的和你相同代码，也是没有结果，希望交流下Q1814693998

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

求解：Python主题模型停用词过滤失效 python 中文分词语言模型
2022-09-06 16:46

回答 1 已采纳直接整篇文章替换字符串，不要先分解成单个汉字你用文章里的单个汉字去跟词典进行比较，当然不一致了
jieba词频统计中去除停用词的问题 python
2023-03-08 00:32

回答 5 已采纳参考gpt和自己的思路，在代码中，你已经成功读取并生成了停用词列表stop_list，可以在统计词频时添加一个判断，如果单词出现在停用词列表中，则不加入词频统计。下面是修改后的代码： import
怎么对Excel中的一列进行jieba分词并去停用词？ python 自然语言处理
2023-02-08 10:50

回答 1 已采纳导入pandas 用python读取excel文件，一个方法搞定，然后获取需要处理的数据列，导入jieba分词库，分词即可。停用词表网上有，循环停用词，判断分词结果中有这个停用词，就从分词结果中删除。
python使用jieba实现中文分词去停用词方法示例
2020-09-20 17:33

jieba分词,完全开源,有集成的python库,简单易用。下面这篇文章主要给大家介绍了关于python使用jieba实现中文分词去停用词的相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考借鉴，下面来一起看看吧。
机器学习去除停用词问题 sklearn 机器学习
2022-10-25 13:23

回答 1 已采纳 data是个表啊for word in data:word是个行吗？
python 数据预处理：对文件夹下的多个文本进行去停用词和分词 nlp python 数据分析
2023-04-19 19:59

回答 2 已采纳使用Python中的os和glob库来实现对文件夹下的多个文本进行去停用词和分词。
用nltk去停用词如何分行？(语言-python) nlp python 数据分析有问必答
2022-02-18 14:27

回答 2 已采纳可以用for循环写成嵌套列表进行处理，示例如下，获取按行去除停用词的分词结果，并可以直接写入csv或者excel中： from nltk.corpus import stopwords from nl
python文本分词，去停用词，包含基础停用词词典
2019-03-06 10:01

用于中文文本分词，去停用词，包含基本的停用词词典，可根据需要进行扩充。
Python如何进行停用词、词性过滤、去掉长度为1的字 python
2023-01-05 18:49

回答 2 已采纳给你写了一个参考示例代码，希望对你有帮助，望采纳 # 导入必要的库 import jieba.posseg as pseg # 加载停用词 stopwords = set() with open("
python读取csv文件遇到编码问题（自己批量生成多条摘要形成的csv） python
2022-03-29 11:39

回答 2 已采纳 data=data.astype(str) 改成 data.astype(str)
nltk库分词后有多余的符号分到单词里 nlp python 自然语言处理
2022-05-06 01:36

回答 1 已采纳如果只是点无法识别的话，可以先用replace()把点替换成空格，再去分词。
python分词与去停用词简单实操
2022-03-29 23:34

HW西的博客一、前期准备 **主要工具：**jieba **数据介绍：**从万方数据平台中收集到的区块链...2、去停用词 ####加载停用词 def load_stopword(): f_stop = open('stopwordsHIT.txt', encoding='utf-8') # 自己的中文停用词表
python textrank 将摘要分别存入csv jupyter python
2022-03-27 20:26

回答 1 已采纳这样试试，我代码里写了注释 import sys from imp import reload import os try: reload(sys) sys.setdefaulte
python文本分词及去除停用词
2021-09-17 14:06

羊咩咩咩咩咩的博客对于文本分词，此处使用的是python自带的jieba包进行，首先我们要先读取我们所需要分词的文章，然后使用jieba.cut进行分词，注意分词时要将这些段落归并成同一个字符串，然后输出的是一个列表。最后写入一个文件中 ...
python去除中文停用词_python使用jieba实现中文分词去停用词方法示例
2020-11-24 04:34

weixin_39655085的博客 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词模块jieba，它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接...
没有解决我的问题, 去提问

悬赏问题

¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛

python 中文分词 去停用词问题

1条回答 默认 最新

悬赏问题

python 中文分词去停用词问题

1条回答默认最新