python词频分析关键词频数与word检索的结果不一致？

python结果与wordCrtl+F搜索结果不一致。代码如下：图片说明

python结果：

图片说明

word搜索结果：

图片说明

显然“发展”这一词语出现的频次是不同的，请问是哪里的问题？如何改进？谢谢！！！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
你知我知皆知 2024-07-25 15:03
关注
以下回答参考 皆我百晓生、券券喵儿 等免费微信小程序相关内容作答，并由本人整理回复。

在你的Python代码中，你使用了jieba.cut()函数来进行中文分词，并将结果存储在一个列表中。然后，你使用一个字典counts来统计每个词的出现次数。

然而，在items.sort()方法之后，你并没有对这个排序后的列表应用任何额外的操作。如果你想要按照单词出现的频率降序排列，你应该首先对这个排序后的列表应用items.sort(key=lambda x: x[1])，然后再打印出这些单词及其频率。

以下是修改后的代码：

import jieba # 加载文本文件 with open('十九大报告（无空格版）.txt', 'r', encoding='utf-8') as f: txt = f.read() # 使用jieba进行分词 words = jieba.lcut(txt) # 创建一个字典来统计每个词的出现次数 counts = {} for word in words: if word not in counts: counts[word] = 1 else: counts[word] += 1 # 按照词频降序排序 sorted_counts = sorted(counts.items(), key=lambda x: x[1], reverse=True) # 打印前100个单词及其频率 for i in range(100): word, freq = sorted_counts[i] print(f"{word:<10} {freq:>5}")

这段代码应该能够解决你的问题。现在，它会按照单词出现的频率降序排列并打印出前100个单词及其频率。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用 Python 玩转文本分析：从 PDF 到词频可视化的全流程解析
2025-05-21 12:15

Code_Verse的博客今天我们用 Python 实现了一个完整的文本分析流程：从 PDF 提取文本，到计算词频，再到通过三张经典图表揭示文本的统计规律。内容创作：分析优秀文章的词频分布，优化写作风格；舆情分析：通过高频词发现热点话题；...
python红楼梦人物词频统计_用 Python 分析《红楼梦》
2020-12-06 05:06

weixin_39637571的博客这个过程中我找到了一些有趣的发现，所以我想写一篇文章，既㲌与大家分享和讨论实验结果，也顺便做一个整理和总结。(其实虽说是两个月，但是中间停顿了一段时间，真正在做的时间大概是两周左右)我开始做这件事情是...
jieba库词频统计_用Python做小说词频分析图
2021-01-10 07:40

不藏私面包匠人的博客用Python做小说词频分析图作者：梅朵微信公众号：实用办公编程技能微信号：Excel-Python最近，我闺蜜在看一本小说《基督山伯爵》，讲的是一个奇幻的复仇故事，听说还不错！看到闺蜜看的很入迷，我也想知道里面到底...
python红楼梦人物词频统计_用R进行文本分析初探——以《红楼梦》为例
2020-12-06 05:06

weixin_39645306的博客刚刚接触R语言和文本分析，为了将二者结合，试着对《红楼梦》进行分析，首先对《红楼梦》进行分词处理，并统计词频，同时画出标签云。其实文本分析还可以分析其它很多东西，我的下一步打算分析新浪微博。现在先写一...
python计算机视觉--图像检索与识别
2022-06-19 17:44

魅影-的博客基本原理：bag-of-words 模型 Bag-of-words词袋模型最初被用在信息检索领域，对于一篇文档来说，假定不考虑文档内的词的顺序关系和语法，只考虑该文档是否出现过这个单词。假设有5类主题，我们的任务是来了一篇文档...
【项目实战】Python实现基于LDA主题模型进行电商产品评论数据情感分析
2021-10-17 10:35

张陈亚的博客说明：这是一个机器学习、数据挖掘实战...利用好这些碎片化、非结构化的数据，将有利于企业在电商平台上的持续发展，同时，对这部分数据进行分析，依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。 ...
常见的文本特征（句向量）提取方法有哪些？什么是One-Hot、TF-IDF？word2vec如何训练？【Python】
2021-07-03 01:23

报告，今天也有好好学习的博客文本特征提取的方法目前已经有很多种，传统的提取方法有平权统计、TF-IDF等，神经网络的方法有word2vec，接下来我会具体对这三种方法进行介绍，以及如何用代码实现。平权统计平权统计非常容易理解，参见下述代码。...
python基础：统计小说词频
2021-04-27 20:20

18.5AU_的博客题目要求：用Python统计小说中各单词出现的频次，并按频次由高到低排序。读取文件 f = open('C:/Users/dell/Desktop/散文.txt','r') txt = f.read(100) f.close() print(txt) f = open('C:/Users/dell/Desktop/...
汉语词频统计软件：专业工具与多领域应用
2025-07-14 23:14

韩锋裂变营销的博客汉语词频统计软件是为满足语言学、新闻学、社会科学研究者分析语料需求而设计的工具。通过自动化手段，软件能够快速从大量文本中提取单词使用频率，并进行可视化处理。它不仅仅是一个统计工具，也是一个有力的研究...
简易语料库检索工具V1.0
2023-08-17 18:34

采用Python编写的语料库检索工具，可以支持字符串和正则表达式的检索，可以轻松检索TXT文本格式的中英文语料库。能够显示语境信息、搭配、词频表、索引行信息。主要特点如下： 1. 采用Python3.9编写，主要采用...
python文章推荐系统（项目源码+word+视频讲解）
2022-12-29 20:24

新手程序员大大的博客 python文章推荐系统（项目源码+word+视频讲解）
Python大数据-电商产品评论情感数据分析
2022-01-19 19:01

你隔壁的小王的博客利用好这些碎片化、非结构化的数据，将有利于企业在电商平台上的持续发展，同时，对这部分数据进行分析，依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。分析产品：韶音 AfterShokz Aeropex AS800...
Python计算机视觉（五）——基于BOW的图像检索
2022-06-17 23:45

LiaoNanan的博客基于BOW的图像检索
Python jieba分词（使用默认词典，自定义词典，对文件内容分词并统计词频）
2020-11-06 16:05

别叫我名字20的博客 3.搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。 import jieba ''' jieba分词的三种模式： 1.全模式：将可以成词的词语都扫描出来，但是不解决歧义 2.精确模式：将...
数据分析与挖掘实战案例-电商产品评论数据情感分析
2024-07-08 20:16

Token_w的博客以下分析所使用的数据与分析结果。 1. 评论去重一些电商平台往往为了避免一些客户长时间不进行评论，会设置一道程序，如果用户超过规定的时间仍然没有做出评论，系统会自动替客户做出评论，这类数据显然没有任何...
没有解决我的问题, 去提问

python词频分析关键词频数与word检索的结果不一致？

1条回答 默认 最新

1条回答默认最新