java实现关于文章相似度问题 10C

CMS项目数据量大多超10w,有的数据量达到100w以上!这种大数据量的情况下如何实现计算每篇文章跟剩余文章的相似度?求大神指教下!之前的做法是先把所有数据从数据库查出来,放在List里边,然后遍历循环跟剩余的对比,尴尬的是数据量一大直接卡死

4个回答

你这应该使用算法或文本分析工具,比如使用Ansj分词工具等等,这样效率会很高,上传的文档可以离线比对后保存相似结果,查询时直接查询结果这不就快了

有文本相似度计算的方法。使用数据挖掘的相关概念实现文本相似度计算

计算文本相似度的,我记得有一个迪杰斯特算法。

有一些思路!分词工具用的是Analyzer,可以把所有的信息标识对应的分词通过分割符组成一个字符串,用余弦定理计算相似度时先用正则匹配找出匹配上的所有信息,再在找出的这些信息中循环计算其相似度,以达到减少计算量的效果

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!