新浪微博广场 [url]http://t.sina.com.cn/pub/[/url]
右侧 ‘1小时话题榜’
这些关键字怎么统计出来的?
lucene能实现吗?
新浪微博广场 [url]http://t.sina.com.cn/pub/[/url]
右侧 ‘1小时话题榜’
这些关键字怎么统计出来的?
lucene能实现吗?
[quote]1小时话题榜[/quote]
如果只是词频统计,lucene可以做,不用lucene也可以做。
1 对1小时谈论的话题文本进行中文分词
2 对有意义的词语统计频率,排在前列的列出来
但是考虑到标题是“1小时话题榜”,还需要考虑很多别的因素,比如说:有人发表一个话题,被很多人关注,和这个话题有关的关键字级别就会提升