#!/usr/bin/env python
import re, sys, collections
stops = open(’../stop_words.txt’).read().split(’,’)
words = re.findall(’[a-z]{2,}’, open(sys.argv[1]).read().lower())
counts = collections.Counter(w for w in words if w not in stops)
for (w, c) in counts.most_common(25):
print w, ’-’, c
上述示例代码为python版本的词频统计。功能如下:
导入stopwords和源文件,之后进行统计并输出。
问题:使用尽可能少的java代码来实现相同的功能,尽可能的调用函数