m0_73841443 2023-06-05 22:28 采纳率: 100%
浏览 117
已结题

python文本词汇出现次数统计

从云南大学校园网上下载一段关于云南大学的介绍文本,将文本保存在名称为“云南大学.txt”文本文件中,注意保存时文件编码要选“UTF-8”。编写程序完成对“云南大学.txt”文件中词汇的出现次数的统计,要求将长度为1的词去掉,并去掉'高校','大学'两个词,按各词出现次数从高到低排序后输出前20项。

img

  • 写回答

7条回答 默认 最新

  • 语言-逆行者 2023-06-05 23:26
    关注

    jieba实现,应该符合你的要求:

    img

    import jieba
    from collections import Counter
    
    # 打开文件
    with open('云南大学.txt', 'r', encoding='utf-8') as f:
        # 读取文件内容为字符串
        text = f.read()
    
    # 对文本进行分词并去除长度为1的词和'高校'、'大学'两个词
    words = []
    for word in jieba.cut(text):
        if len(word) > 1 and word not in ('高校', '大学'):
            words.append(word)
    
    # 统计词频并排序
    word_counts = Counter(words)
    sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
    
    # 输出前20项
    for word, count in sorted_word_counts[:20]:
        print(f'{word}: {count}')
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(6条)

报告相同问题?

问题事件

  • 系统已结题 6月14日
  • 已采纳回答 6月6日
  • 请采纳用户回复 6月6日
  • 请回答用户的提问 6月5日
  • 展开全部

悬赏问题

  • ¥15 网络科学导论,网络控制
  • ¥100 安卓tv程序连接SQLSERVER2008问题
  • ¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比,为什么Snetinel-2计算的结果最小值特别小,而Lansat8就很平均
  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
  • ¥50 如何openEuler 22.03上安装配置drbd