如何用python统计html文件中单词出现的次数

如题，请问如何用python统计本地html文件中每个单词出现的次数？尝试过with open() 配合read()，但效果不好，统计出的结果少于单词实际出现次数

我当时是这样统计的：

freq_count = {}  # store the count of each word

with open(file_path, 'r+', encoding='utf-8') as document:
    tokens = document.read().split()

    for token in tokens:
        token = re.sub(r'\W+', '', token)
        token = token.lower()

        # update dict
        if token not in freq_count:
            freq_count[token] = 1
        else:
            freq_count[token] += 1

要统计字数的文件类似于：https://en.wikipedia.org/wiki/Social_intelligence
已存为本地HTML文件

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
jingluan666 2020-09-25 13:02
关注
先提取html中的文本

参考：https://matix.io/extract-text-from-webpage-using-beautifulsoup-and-python/

然后再split计数

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

如何用python统计html文件中单词出现的次数 html5 python 全文检索
2020-09-25 07:06

回答 2 已采纳先提取html中的文本参考：https://matix.io/extract-text-from-webpage-using-beautifulsoup-and-python/ 然后再s
python 统计人名及其出现次数 python
2023-04-21 14:13

回答 2 已采纳 import random org = [] for i in range(20): a =random.choice('abcdefghijklmnopqrstuvwxyz') or
Python统计文件中的单词个数 python 有问必答
2021-06-01 19:03

回答 2 已采纳 import re with open('in.txt','r')as f: data = f.read() result = re.split(r"[^a-zA-Z]",data) pri
python统计文件中每个单词出现的次数_Python统计单词出现的次数
2020-11-20 21:43

weixin_39640904的博客前言：这道题在实际应用场景中使用比较广泛，比如统计历年来四六级考试中出现的高频词汇，记得李笑来就利用他的编程技能出版过一本背单词的畅销书，就是根据词频来记单词，深受学生喜欢。这就是一个把编程技能用来...
python中统计字符串中每个字母出现的次数 python
2021-12-07 19:56

回答 1 已采纳 def Character(Str): letters = 0 for s in Str: if 97<=ord(s)<=122 or 65<=ord
python中统计单词数 pycharm python
2022-04-10 21:58

回答 1 已采纳少个括号 a2z = [c for c in range(ord('a'), (ord('z')))]
用python统计英语单词出现的次数，并实现输出结果的美化 python 开发语言
2021-11-04 09:06

回答 1 已采纳 article = """ In our world , one creature without any rivals is a lifeless creature. If a man lives
python统计文件中每个单词出现的次数_python统计文本中每个单词出现的次数
2020-11-20 21:42

weixin_39654322的博客 .python统计文本中每个单词出现的次数：#coding=utf-8__author__ = ‘zcg‘import collectionsimport oswith open(‘abc.txt‘) as file1:#打开文本文件str1=file1.read().split(‘ ‘)#将文章按照空格划分开print ...
python 统计字典每个键值规定值出现的次数 python
2022-04-19 14:38

回答 2 已采纳要这个？ for k,v in d.items(): print(k,v.count(396),v.count(13),v.count(5))
python：字符串里全部字母出现次数的统计 python
2021-12-15 14:24

回答 1 已采纳问题1：先收集字符串里各个字母出现的次数，然后循环26个字母，如果字母不在字典里，则添加键(字母)值(0)问题2：分别输出还是用循环，可以循环键，也可以循环键值对，然后用print单行分别打印
用python统计txt文件中某个字符的数量例如统计图中数字“2”出现的次数 python
2022-01-16 18:16

回答 1 已采纳 if __name__ == '__main__': fd = open('test.txt', 'r') count = 0 for line in fd.readline
python统计单词出现次数_用python统计单词出现频率
2020-11-21 00:51

weixin_39922868的博客用python的字典数据结构可以很方便地用来统计一篇文章的每个单词出现的频率。在文本相似度计算中，就经常需要用到一个单词在文章中的出现频率，进而可以根据两篇文章共有单词在相应文章中的频率比较，来计算相似度。...
python 输入一个文件和一个字符，统计该字符在文件中出现的次数 python
2019-08-03 22:33

回答 1 已采纳因为你那个int(s)将s变为整型了而从文件读的都是字符串所以j是不会等于int（s）的可以把int（s）外边int去掉。或者j也改为int(j)
python中统计单词出现的次数_python统计文章中单词出现次数实例
2020-12-29 07:11

Tiny Whale的博客 python统计单词出现次数做单词词频统计，用字典无疑是最合适的数据类型，单词作为字典的key，单词出现的次数作为字典的 value，很方便地就记录好了每个单词的频率，字典很像我们的电话本，每个名字关联一个电话号码...
python统计单词出现次数_python统计文本中每个单词出现的次数
2020-11-23 05:16

weixin_39602615的博客 .python统计文本中每个单词出现的次数：#coding=utf-8__author__ = ‘zcg‘import collectionsimport oswith open(‘abc.txt‘) as file1:#打开文本文件str1=file1.read().split(‘ ‘)#将文章按照空格划分开print ...
没有解决我的问题, 去提问

悬赏问题

¥15 请问有人会紧聚焦相关的matlab知识嘛？
¥15 网络通信安全解决方案
¥50 yalmip+Gurobi
¥20 win10修改放大文本以及缩放与布局后蓝屏无法正常进入桌面
¥15 itunes恢复数据最后一步发生错误
¥15 关于#windows#的问题：2024年5月15日的win11更新后资源管理器没有地址栏了顶部的地址栏和文件搜索都消失了
¥100 H5网页如何调用微信扫一扫功能？
¥15 讲解电路图，付费求解
¥15 有偿请教计算电磁学的问题涉及到空间中时域UTD和FDTD算法结合的
¥15 three.js添加后处理以后模型锯齿化严重

如何用python统计html文件中单词出现的次数

2条回答 默认 最新

悬赏问题

2条回答默认最新