如何用python统计html文件中单词出现的次数

如题，请问如何用python统计本地html文件中每个单词出现的次数？尝试过with open() 配合read()，但效果不好，统计出的结果少于单词实际出现次数

我当时是这样统计的：

freq_count = {}  # store the count of each word

with open(file_path, 'r+', encoding='utf-8') as document:
    tokens = document.read().split()

    for token in tokens:
        token = re.sub(r'\W+', '', token)
        token = token.lower()

        # update dict
        if token not in freq_count:
            freq_count[token] = 1
        else:
            freq_count[token] += 1

要统计字数的文件类似于：https://en.wikipedia.org/wiki/Social_intelligence
已存为本地HTML文件

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
jingluan666 2020-09-25 13:02
关注
先提取html中的文本

参考：https://matix.io/extract-text-from-webpage-using-beautifulsoup-and-python/

然后再split计数

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python 统计文本文件中单词出现的次数
2025-03-27 20:17

键盘艺术指导的博客本文介绍了如何使用 Python 编程语言统计文本文件中单词出现的次数。通过结合文件操作、字符串处理以及集合数据结构的应用，我们成功完成了这项任务。希望这篇博客能帮助你更好地理解和掌握相关知识！如果你有任何...
python统计文件中每个单词出现的次数_Python统计单词出现的次数
2020-11-20 21:43

weixin_39640904的博客前言：这道题在实际应用场景中使用比较广泛，比如统计历年来四六级考试中出现的高频词汇，记得李笑来就利用他的编程技能出版过一本背单词的畅销书，就是根据词频来记单词，深受学生喜欢。这就是一个把编程技能用来...
python统计文件中每个单词出现的次数_python统计文本中每个单词出现的次数
2020-11-20 21:42

weixin_39654322的博客 .python统计文本中每个单词出现的次数：#coding=utf-8__author__ = ‘zcg‘import collectionsimport oswith open(‘abc.txt‘) as file1:#打开文本文件str1=file1.read().split(‘ ‘)#将文章按照空格划分开print ...
Python 统计字符串中单词的出现次数
2025-03-31 18:32

程序老干部dd的博客通过以上三种方法，我们可以轻松地统计字符串中单词的出现次数。选择哪种方法取决于具体的需求。如果只是简单的统计，使用字典或Counter即可；如果需要处理复杂情况，则推荐使用正则表达式。希望本文能帮助你更好地...
python统计单词出现次数_用python统计单词出现频率
2020-11-21 00:51

weixin_39922868的博客用python的字典数据结构可以很方便地用来统计一篇文章的每个单词出现的频率。在文本相似度计算中，就经常需要用到一个单词在文章中的出现频率，进而可以根据两篇文章共有单词在相应文章中的频率比较，来计算相似度。...
python统计单词出现次数_python统计文本中每个单词出现的次数
2020-11-23 05:16

weixin_39602615的博客 .python统计文本中每个单词出现的次数：#coding=utf-8__author__ = ‘zcg‘import collectionsimport oswith open(‘abc.txt‘) as file1:#打开文本文件str1=file1.read().split(‘ ‘)#将文章按照空格划分开print ...
python中统计单词出现的次数_python统计文章中单词出现次数实例
2020-12-29 07:11

Tiny Whale的博客 python统计单词出现次数做单词词频统计，用字典无疑是最合适的数据类型，单词作为字典的key，单词出现的次数作为字典的 value，很方便地就记录好了每个单词的频率，字典很像我们的电话本，每个名字关联一个电话号码...
python中统计各个单词出现的次数使用方法_python统计文本中每个单词出现的次数...
2020-11-24 02:57

weixin_39827728的博客 .python统计文本中每个单词出现的次数：#coding=utf-8__author__ = 'zcg'import collectionsimport oswith open('abc.txt') as file1:#打开文本文件str1=file1.read().split(' ')#将文章按照空格划分开print "原文本...
python统计txt文件中不同文字出现的次数_Python统计文本词汇出现次数的实例代码...
2020-11-24 01:41

weixin_39868034的博客问题描述有时在遇到一个文本需要统计文本内词汇的次数的时候，可以用一个简单的python程序来实现。解决方案首先需要的是一个文本文件(.txt)格式(文本内词汇以空格分隔)，因为需要的是一个程序，所以要考虑如何将...
python统计句子中单词个数_Python实现统计单词出现的个数
2020-11-24 03:00

weixin_39719078的博客最近在看python脚本语言，脚本语言是一种解释性的...下面的一个例子就是用python统计单词出现的个数。import sysimport string#import collectionsif len(sys.argv) == 1 or sys.argv[1] in {"-h", "--help"}:pri...
没有解决我的问题, 去提问

如何用python统计html文件中单词出现的次数

2条回答 默认 最新

2条回答默认最新