函数输入:文件路径(见调用示例) # 函数输出:该路径下所有文件中单词出现的频率(以字典数据类型进行返回,去除掉长度不大于2的单词) # 注意:1、在统计单词出现的频率时,所有的单词均应先变成小写。 # 2、在统计单词时,从非字母字符(包括空格)的下一个字符作为单词的字母,直到 # 非字母字符(包括空格)截止。 # 3、数据为整个email文件夹 # 例如: "Increase volume ofEjacu1ate" 分离出来的单词为"increase" ,"volume" , "ofejacu" ,"ate"
邮件内容如下:
--- Codeine 15mg -- 30 for $203.70 -- VISA Only!!! --
-- Codeine (Methylmorphine) is a narcotic (opioid) pain reliever
-- We have 15mg & 30mg pills -- 30/15mg for $203.70 - 60/15mg for $385.80 - 90/15mg for $562.50 -- VISA Only!!! ---
Hi Peter,
With Jose out of town, do you want to
meet once in a while to keep things
going and do some interesting stuff?
Let me know
Eugene
实际上有50个txt文档,用的是垃圾邮件过滤的数据。