2 u013179958 u013179958 于 2017.09.08 13:11 提问

我的数据库中有100G的数据,如何能提取出这100G里面的高频词?

数据库是mysql
数据库是从各个新闻网爬取的数据
数据都是结构性的数据

2个回答

illbehere
illbehere   2017.09.08 13:56
已采纳

把数据分词放到hdfs上,然后用spark处理下就行了

qq_35728177
qq_35728177   Ds   Rxr 2017.09.08 14:25

用分词类库对数据进行分词,统计词频

Csdn user default icon
上传中...
上传图片
插入图片