Python词频统计

怎么在一段英语报告中提取词频统计，并按顺序排列，尝试了几种代码都是报错，求告知

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

三只小菜猿新星创作者: PHP技术领域 2022-09-02 11:41

关注

import re

# 请根据处理要求下面区域完成代码的编写。
def get_artical(artical_path):
    with open(artical_path) as fr:
        data = fr.read()
    return data

#处理函数
def handle(data):    
    counts = {}
    #data = data.lower()
    data1 = re.sub('\n',' ',data)#替换换行符为空格
    reg = "[^A-Za-z\']"
    data = re.sub(reg,' ',data1)#只保存英文,同时保留don't isn't类似单词
    data = data.lower()
    list_data = data.split()#列表
    #遍历统计
    for word in list_data:
        if word in counts.keys():
            counts[word] = counts[word] +1
        else:
            counts[word] = 1
    return counts

# get_artical()为自定义函数，可用于读取指定位置的试题内容。
data = get_artical('./artical.txt')
re_counts = handle(data)
re_counts = sorted(re_counts.items(),key=lambda x:x[1],reverse=True)#词频从大到小排序，
print(re_counts)

试试这个看行不行

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

Python之词频统计
2023-04-20 19:23

在Python编程语言中，词频统计是一项常见的任务，特别是在自然语言处理（NLP）领域。这个任务涉及到对文本数据进行分析，找出其中各个词汇出现的频率。在这个场景中，我们有两个具体的实例：对《三国演义》人物出场...
python文件词频统计
2020-01-17 15:58

读取给定文本文件，统计单词，计算TOP 10 有一个文件sample.txt，对其进行单词统计，不区分大小写，并显示单词重复最多的10个单词。
基于python的词频统计源码
2023-08-17 22:44

【Python词频统计源码详解】在Python编程中，词频统计是一项常用的任务，它能够帮助我们分析文本数据，找出最常出现的词汇，对于文本挖掘、自然语言处理（NLP）等领域尤其重要。本篇将详细介绍基于Python的词频...
Python词频统计
2024-05-03 21:10

youyouxiong的博客方法将所有文本转换为小写，以保证词频统计时不区分大小写。确保我们已经下载了所需的分词和停用词数据集。方法用于将文本分割成单词列表，然后我们使用。函数进行分词，然后去除停用词，并再次使用。以下是一个简单...
python词频统计2
2023-06-07 15:33

python词频统计2
Python实现pdf中词频统计
2023-10-14 11:19

Python实现pdf中词频统计全量代码，把文件存放到指定文件夹中，即可对全量文章进行统计特定词。
python实现文章词频统计
2023-07-24 20:51

在Python编程语言中，进行文章词频统计是一项基础但实用的任务，它可以帮助我们理解文本的主要内容、主题或者模式。词频统计是文本挖掘和自然语言处理（NLP）中的一个关键步骤，尤其对于分析大量文本数据时，如新闻...
python词频统计资源1
2023-06-07 15:33

python词频统计资源1
Python词频统计[源码]
2025-11-16 06:57

在本文中，我们将详细介绍如何利用Python进行词频统计，包括但不限于读取文本文件、清洗数据以过滤非英文字符、利用Counter类统计单词出现的次数以及如何找出频率最高的单词。文中将通过具体的函数实现，例如read_...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月2日

Python词频统计

5条回答 默认 最新

问题事件

5条回答默认最新