python词频统计代码问题在哪儿啊

有没有人帮我看看为什么分完词后，统计词频时是按照单个字符统计的？
运行结果如下图

#数据资产管理实践白皮书（6.0版）
import jieba # 使用jieba分词
fileContent = open(r'D:/anacondadata/dataassetguanjiancicidian/数据资产管理实践白皮书（6.0版）.txt','r', encoding = "utf-8").read()
words = jieba.lcut_for_search(fileContent)# 分词后返回一个列表
#print(words)
with open('D:\\anacondadata\\dataassetguanjiancicidian\\stopword\\hit_stopwords.txt', 'r', encoding='UTF-8') as files: 
     stopwords = [line.strip() for line in files.readlines()] #加载停用词表
result = ""
for w in words:
    if w not in stopwords and len(w)>1: # 停用词过滤
        if w not in '\n \t \r \f': #去除特殊符号
            result+=w+" "
print(result)
counts = {}
for word in result:
        counts[word] = counts.get(word, 0) + 1
for word, count in counts.items():
 print(f"{word}: {count}")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
恐怖如斯恐怖如斯啊 2024-11-18 21:01
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

从你的代码和运行结果来看，问题在于你的词频统计部分对单个字符进行了统计。这是因为你遍历了 result 字符串中的每一个字符，然后将它们作为单独的词进行了统计。而 result 字符串中的每个字符（包括空格和标点符号）都被单独计算了。所以，你看到的统计结果中有很多单个字符的出现次数。

你应该对分词后的列表 words 进行词频统计，而不是对处理后的字符串 result 进行统计。以下是你应该修改的词频统计部分：

counts = {} for word in words: # 这里改为遍历 words 列表 if word not in stopwords and len(word)>1: # 停用词过滤 counts[word] = counts.get(word, 0) + 1 # 统计词频 for word, count in counts.items(): print(f"{word}: {count}")

这样的修改应该能正确地按照单词进行词频统计，而不是按照单个字符进行统计。另外，注意在处理文本数据时，有时候还需要考虑标点符号和特殊字符的处理，你可能需要更精细地处理这些部分，以确保你的词频统计结果符合预期。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python编写的词频统计工具
2023-01-28 17:23

在IT领域，Python是一种广泛应用的编程语言，尤其在数据分析、文本处理和自动化任务中表现出色。本主题聚焦于一个使用Python编写的词频统计工具，它可以帮助用户快速分析文本文件中的词汇出现频率，从而理解文本内容...
《Python文本挖掘实战：词频统计高效教程》-计算机科学·Python编程·文本分析·数据预处理
2024-05-03 18:42

通过本教程的学习，读者不仅能够掌握使用Python进行词频统计的基本方法，还能了解如何处理不同的文本类型（如英文和中文），以及如何将这些技能应用于实际问题中。无论是对于专业数据分析师还是对数据分析感兴趣的...
词频统计：Python 实现
2024-05-03 22:32

Python 作为一种广泛使用的编程语言，拥有丰富的库和框架，非常适合进行词频统计的相关工作。本文将详细介绍使用 Python 实现词频统计的步骤，包括但不限于文本清洗、分词、词频计算和可视化展示。文本预处理是词频...
Python之词频统计
2023-04-20 19:23

在Python编程语言中，词频统计是一项常见的任务，特别是在自然语言处理（NLP）领域。这个任务涉及到对文本数据进行分析，找出其中各个词汇出现的频率。在这个场景中，我们有两个具体的实例：对《三国演义》人物出场...
python学习文本词频统计hamlet三国演义
2021-04-10 21:04

在Python编程领域，词频统计是一项基础且重要的任务，它涉及到自然语言处理（NLP）和数据挖掘。在这个项目中，我们关注的是如何使用Python来分析文本中的词频，特别是针对"hamlet.txt"和"三国演义.txt"这两部文学...
Python词频统计[源码]
2025-11-16 06:57

在当前信息科技飞速发展的时代，文本数据处理的需求也日...最后，文章还涉及到一些Python编程中的高级话题，如异常处理、文件操作的最佳实践等，使读者在掌握词频统计的同时，也能够提升自身的编程能力和问题解决能力。
基于python的词频统计源码
2023-08-17 22:44

【Python词频统计源码详解】在Python编程中，词频统计是一项常用的任务，它能够帮助我们分析文本数据，找出最常出现的词汇，对于文本挖掘、自然语言处理（NLP）等领域尤其重要。本篇将详细介绍基于Python的词频...
文本分析-使用Python做词频统计分析_python词频统计
2024-04-10 23:11

2301_82257730的博客 词频统计是指在文本或语音数据中，统计每个单词或符号出现的次数，以便对文本或语音数据进行分析和预处理。在词频统计中，通常将文本或语音数据转换成单词或符号的形式，然后统计每个单词或符号出现的次数，并将其...
上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例
2021-12-13 10:12

首先，Python是一种广泛使用的编程语言，尤其在数据处理和分析领域有着强大的功能。在处理文本数据时，Python提供了许多库，其中jieba是一个非常出色的中文分词库。jieba支持精确模式、全模式和搜索引擎模式等多种...
python之词频统计
2022-03-13 23:39

grittii的博客中文、英文词频统计。英文有空格或者标点符号分隔，中文单词之间缺少分词符，需要用分词函数
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月18日

python词频统计代码问题在哪儿啊

1条回答 默认 最新

问题事件

1条回答默认最新