十二cin
2021-05-02 16:44
采纳率: 100%
浏览 56

【python】多封邮件词频统计

函数输入:文件路径(见调用示例)
# 函数输出:该路径下所有文件中单词出现的频率(以字典数据类型进行返回,去除掉长度不大于2的单词)
# 注意:1、在统计单词出现的频率时,所有的单词均应先变成小写。
#       2、在统计单词时,从非字母字符(包括空格)的下一个字符作为单词的字母,直到
#      非字母字符(包括空格)截止。
#       3、数据为整个email文件夹
# 例如: "Increase volume ofEjacu1ate" 分离出来的单词为"increase" ,"volume" , "ofejacu" ,"ate"

邮件内容如下:

--- Codeine 15mg -- 30 for $203.70 -- VISA Only!!! --

-- Codeine (Methylmorphine) is a narcotic (opioid) pain reliever
-- We have 15mg & 30mg pills -- 30/15mg for $203.70 - 60/15mg for $385.80 - 90/15mg for $562.50 -- VISA Only!!! ---

 

Hi Peter,

With Jose out of town, do you want to
meet once in a while to keep things
going and do some interesting stuff?

Let me know
Eugene

 

实际上有50个txt文档,用的是垃圾邮件过滤的数据。

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

3条回答 默认 最新

  • 已采纳
    import re
    import os
    
    def cpf(path):
        dic = {}
        FileNames=os.listdir(path)
        for fn in FileNames:
            if re.search(r'\.txt$',fn):
                fullfilename=os.path.join(path,fn)
                with open(fullfilename,'r',encoding='utf-8') as f:
                    s = f.read()
                    print(s)
    
                    li = re.findall(r'[A-Za-z]{3,}',s)
                    for v in li:
                        v = v.lower()
                        dic[v] = dic.get(v,0)+1
    
        return dic
    
    print(cpf(r'e:/xxx'))
    点赞 1 评论
  • 有问必答小助手 2021-05-04 22:24

    您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~

    如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

    ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632

    点赞 评论
  • 有问必答小助手 2021-05-06 16:22

    非常感谢您使用有问必答服务,为了后续更快速的帮您解决问题,现诚邀您参与有问必答体验反馈。您的建议将会运用到我们的产品优化中,希望能得到您的支持与协助!

    速戳参与调研>>>https://t.csdnimg.cn/Kf0y

    点赞 评论

相关推荐 更多相似问题