目前数据库里面有1000万个文章标题,然后我想把这1000万里面,有相似的标题全部提取出来,用什么方法比较好呢
比如,
标题1:我爱中国
标题2:我很爱中国
标题3:你吃饭了吗
标题4:今天天气真好
标题5:今天的天气真好
标题6:今天的天气是晴天真好
标题7:论坛的用户都是好人
等等
这种,标题1 和 标题2 属于相似,拿出来
然后标题 4 5 6是相似的,也拿出来
标题 3 和 7 都和谁都不相似, 直接pass
目前装了 Elasticsearch 但是不知道具体怎么操作
目前数据库里面有1000万个文章标题,然后我想把这1000万里面,有相似的标题全部提取出来,用什么方法比较好呢
比如,
标题1:我爱中国
标题2:我很爱中国
标题3:你吃饭了吗
标题4:今天天气真好
标题5:今天的天气真好
标题6:今天的天气是晴天真好
标题7:论坛的用户都是好人
等等
这种,标题1 和 标题2 属于相似,拿出来
然后标题 4 5 6是相似的,也拿出来
标题 3 和 7 都和谁都不相似, 直接pass
目前装了 Elasticsearch 但是不知道具体怎么操作
使用分词
直接根据每一个标题分词后在进行分词查询,定好分词查询的匹配度后获取匹配度超过你定好的值就是相似的。