jieba分词后，想要对分词进行词频统计和排序，使用print函数输出的是分词遍历的结果

jieba分词后，想要对分词进行词频统计和排序，使用print函数输出的是分词遍历的结果。

def chinese_word_cut(mytext):

jieba.load_userdict(dic_file)
jieba.initialize()
try:
    stopword_list = open(stop_file, encoding='utf-8')
except:
    stopword_list = []
    print("error in stop_file")
stop_list = []
flag_list = ['n', 'nz', 'vn']
for line in stopword_list:
    line = re.sub(u'\n|\\r', '', line)
    stop_list.append(line)

   # jieba分词
   seg_list = psg.cut(mytext)
    word_list = []
    word_freq = {}
    count_dict = dict()
    for seg_word in seg_list:
        # word = re.sub(u'[^\u4e00-\u9fa5]','',seg_word.word)
        word = seg_word.word
        find = 0
        for stop_word in stop_list:
            if stop_word == word or len(word) < 2:  # this word is stopword
                find = 1
                break
        if find == 0 and seg_word.flag in flag_list:
            for word in word_list:
                if word in word_freq:
                    count_dict[word] += 1
                else:
                    count_dict[word] = 1
            word_list.append(word)
        print(sorted(count_dict.items(),key=lambda x:x[1],reverse=True))

运行显示的是分词遍历的结果：[('文化', 1)] [('标准', 1)] [('印发', 1)]

我尝试过把for word in word_freq 等循环语句放在不同的位置，但是显示结果都是分词的遍历

想要最终显示出[(key,value)],value是key的总计值，而非是“1”。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
youcans_ 人工智能领域优质创作者 2022-01-28 10:43
关注
h_txt = getText() words = h_txt.split() counts = {} for word in words: counts[word] = counts.get(word, 0) + 1 items = list(counts.items()) items.sort(key=lambda x: x[1], reverse=True) for i in range(10): s = items[i] print(s)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python怎么把jieba分词后的结果导入excel中啊
2017-07-19 15:45

回答 1 已采纳 http://blog.csdn.net/u014070086/article/details/73201590
仿照hamlet.txt的方式，按照分词方式（jieba分词）对threeking.doms.txt进行词频统计，并输出词频最高的20个词及词频 python
2022-05-12 23:20

回答 1 已采纳说明：代码是使用我自己的数据进行实现的，使用时要把你数据文件的路径传给变量dic_path请采纳，谢谢！（1）代码如下： import jieba dic_path = './10.txt' # 文
请问使用jieba分词如何避免把我的时间词分开？ nlp python 自然语言处理
2022-04-29 20:27

回答 1 已采纳能不能用正则表达式先将这些筛出来，然后将其在语料中的删除，新的语料使用jieba分词，最后将两组词拼接
python使用jieba分词，词频统计，基本使用
2022-09-27 19:35

自动販卖机的博客 python使用jieba分词，词频统计，基本使用
python实现中文分词，jieba库实现中文分词自然语言处理
2022-11-24 22:45

回答 1 已采纳这是详细的教程https://blog.csdn.net/weixin_44095417/article/details/121146386
Python的jieba库输出全部分词哪里出了问题 python
2022-06-02 11:36

回答 1 已采纳代码没错，只是你输出的内容错了可以参考 jieba.cut与jieba.lcut的区别_blackieliu的博客-CSDN博客_jieba.cut
怎么修改这个代码使其对所有行的分词的词频进行统计然后输出到一个表 python 开发语言
2023-03-15 21:00

回答 1 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ,具体如下：你可以把循环遍历每一行的代码放到一个函数中，然后在外层再循环遍历每一行并调用这个函数。修改后的代码如下： import pandas as pd import
Python 应用-jieba分词1：进行批量文本分词
2023-03-31 12:54

艽野尘梦better的博客使用jieba分词实现批量文本分词，word文档批量转为txt文档，读取文件夹中所有文件名称，按给的图像绘制词云图
结巴问题：为什么我输出不了slist (结巴分词后的结果）？ python
2021-12-27 17:53

回答 1 已采纳 jieba.cut()返回的是一个迭代器，只能迭代一次你第8行在遍历后就为空了，所以13行没办法join()了可以在第8行前加一句： slist = list(slist)
怎么对Excel中的一列进行jieba分词并去停用词？ python 自然语言处理
2023-02-08 10:50

回答 1 已采纳导入pandas 用python读取excel文件，一个方法搞定，然后获取需要处理的数据列，导入jieba分词库，分词即可。停用词表网上有，循环停用词，判断分词结果中有这个停用词，就从分词结果中删除。
python用jieba库进行哈姆雷特词频统计 python
2022-06-23 10:48

回答 2 已采纳找不到文件，你现在应该使用的是相对路径的写法，保证txt文件和运行的脚本文件在同一目录下。文件名也用复制的方式，避免出错。有帮助请采纳，还有不懂的可以继续追问~
python分词统计词频_python 实现中文分词统计
2020-11-24 03:08

weixin_39907316的博客总是看到别人用Python搞各种统计，前端菜鸟的我也来尝试了一把。有各种语义分析库在，一切好像并不是很复杂。不过Python刚开始看，估计代码有点丑。一、两种中文分词开发包THULAC（THU Lexical Analyzer for Chinese...
python中文分词库jieba使用方法详解
2020-09-17 23:40

### Python中文分词库jieba使用方法详解 #### 一、引言 Jieba 是一个广泛使用的中文分词库，适用于 Python 开发者。它提供了简单易用的 API 来进行中文文本的分词处理，并支持精确模式、全模式以及搜索引擎模式等...
pythonjieba分词_jieba分词学习笔记（一）_Python jieba分词
2020-11-30 11:02

weixin_39606177的博客 jieba分词学习笔记（一）序中科院的ICTCLAS，...jieba分词是python写成的一个算是工业界的分词开源库，其github地址为：https://github.com/fxsjy/jiebajieba分词虽然效果上不如ICTCLAS和ltp，但是胜在python编写，...
超级详细使用jieba分词用wordcloud制作词云并进行词频统计实例
2020-12-10 23:33

microspore的博客使用命令安装jieba 分词，这里已经帮大家写好了阿里云的镜像复制使用即可。 pip install jieba -i https://mirrors.aliyun.com/pypi/simple/ 另外一个下载下我的文件，我这里使用的是长篇小说《白鹿原》，有需要的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月27日

悬赏问题

¥15 QTableWidget重绘程序崩溃
¥15 51寻迹小车定点寻迹
¥15 谁能帮我看看这拒稿理由啥意思啊阿啊
¥15 关于vue2中methods使用call修改this指向的问题
¥15 idea自动补全键位冲突
¥15 请教一下写代码，代码好难
¥15 iis10中如何阻止别人网站重定向到我的网站
¥15 滑块验证码移动速度不一致问题
¥15 Utunbu中vscode下cern root工作台中写的程序root的头文件无法包含
¥15 麒麟V10桌面版SP1如何配置bonding

jieba分词后，想要对分词进行词频统计和排序，使用print函数输出的是分词遍历的结果

jieba分词后，想要对分词进行词频统计和排序，使用print函数输出的是分词遍历的结果。

def chinese_word_cut(mytext):

运行显示的是分词遍历的结果：[('文化', 1)] [('标准', 1)] [('印发', 1)]

我尝试过把for word in word_freq 等循环语句放在不同的位置，但是显示结果都是分词的遍历

想要最终显示出[(key,value)],value是key的总计值，而非是“1”。

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新