python 统计各html标签的个数

统计所处理的所有网页文件中的各个HTML标签的出现次数
在屏幕上分行显示出现最多的三个标记及其出现次数

底下的函数怎么写呢？

写得不太好👉👈，集合里标签的类型有重复，该怎么修改呢？
谢谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

流比 2022-12-25 00:06

关注


import re
from collections import defaultdict

def count_tags(filenames):
    # Initialize a dictionary to count the occurrences of each tag
    tag_counts = defaultdict(int)

    # Regular expression to match HTML tags
    pattern = re.compile(r'<[^>]+>')

    # Process each file
    for filename in filenames:
        with open(filename, 'r') as f:
            # Read the contents of the file
            contents = f.read()

            # Find all the tags in the contents
            tags = pattern.findall(contents)

            # Increment the count for each tag
            for tag in tags:
                tag_counts[tag] += 1

    # Sort the tags by count in descending order
    sorted_tags = sorted(tag_counts, key=tag_counts.get, reverse=True)

    # Print the top three tags and their counts
    for i, tag in enumerate(sorted_tags[:3]):
        print(f'{tag}: {tag_counts[tag]}')

if __name__ == '__main__':
    # Test with some sample filenames
    count_tags(['file1.html', 'file2.html'])

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

用Python统计数字出现的个数 python 学习方法考研
2022-10-28 18:36

回答 1 已采纳用OrderedDict试一下
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
python统计字符个数 python 开发语言
2021-10-12 20:39

回答 2 已采纳 s = "学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知而不愠,不亦君子乎?" n = 0 m = 0 for ch in s: if '\u4e00' <= ch &lt
Python+matplotlib设置坐标轴文本标签排列方式
2019-05-12 11:28

dongfuguo的博客在默认情况下，y轴的文本标签方向是下面这样的：有时候这样子不方便看，我们可能希望文字水平显示并且每行显示一个字，如下图：这时可以使用ylabel()函数的rotation属性设置为&#39...
python 统计不同字符的个数。用户从键盘输入一行字符，编写一个程序，统计并输出英文字符、数字、空格和其他字符的个数。 python
2021-09-06 11:52

回答 5 已采纳 1－首先python语法不加;2－你的变量名重复，导致input,被第六行重新赋值成03－如果想将i变量定义为字符语法为str(i) 整数为int(i)如有帮助望采纳，谢谢
Python统计文件中的单词个数 python 有问必答
2021-06-01 19:03

回答 2 已采纳 import re with open('in.txt','r')as f: data = f.read() result = re.split(r"[^a-zA-Z]",data) pri
Python中输入字符串，统计其中数字字符的个数 python
2021-10-07 19:07

回答 1 已采纳 string1=input("请输入一个字符串：") num=0 for ch in string1 : if ch.isdigit() :
2024年在Python中有四种方法，可以用来统计列表中的重复项出现的次数
2024-05-01 17:05

2301_82242426的博客这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。基本上主流的和经典的都有，这里我就不放...
用python语言，统计20个学生的成绩 python
2022-04-14 12:03

回答 2 已采纳一个实现，供参考： grade=input("请输入20个学生成绩，以逗号分隔:") grade=grade.split(',') #将输入读取转换成列表 #初始化最大值，最小值，以及和 max
python 统计字符串中的小写字母个数 python 有问必答
2021-05-24 13:46

回答 4 已采纳 lb = ["a", "b", "d"] s = "asdaeqwezxcsdxvsr"; num = 0 for item in lb: num += s.count(item) prin
最新Python 快速统计数据的去重数和去重数据
2024-05-03 12:07

2401_84689346的博客这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。基本上主流的和经典的都有，这里我就不放...
00_Python核心编程
2024-06-25 17:05

刘德华海淀分华的博客 Python核心语法人生苦短，你会用python么？
Python NLP自然语言处理详解
2022-10-18 13:39

wespten的博客在这个大数据时代，几乎所有事物都能用数据描述。数据可以大致分为三类。第一类是用于传播的媒体数据，如图片、音频、视频等...这类数据更贴近生活，对其进行统计和分析，可以让机器理解人的语言，实现机器与人的交流。
01-python核心编程
2024-06-10 16:02

南柯一梦的江湖的博客 python入门 1.python初步 1.1 计算机基础结构 1.1.1 硬件 1944年，美籍匈牙利数学家冯·诺依曼提出计算机基本结构。五大组成部分：运算器、控制器、存储器、输入设备、输出设备。 – 运算器：按照程序中的指令，对...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月24日

悬赏问题

¥15 请问有用MZmine处理 “Waters SYNAPT G2-Si QTOF质谱仪在MSE模式下采集的非靶向数据” 的分析教程吗
¥50 opencv4nodejs 如何安装
¥15 adb push异常 adb: error: 1409-byte write failed: Invalid argument
¥15 nginx反向代理获取ip，java获取真实ip
¥15 eda：门禁系统设计
¥50 如何使用js去调用vscode-js-debugger的方法去调试网页
¥15 376.1电表主站通信协议下发指令全被否认问题
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
¥15 复杂网络，变滞后传递熵，FDA
¥20 csv格式数据集预处理及模型选择

python 统计各html标签的个数

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新