wy1472586 2022-07-21 13:40 采纳率: 100%
浏览 73
已结题

数据库检索相关,提取相似文本

目前数据库里面有1000万个文章标题,然后我想把这1000万里面,有相似的标题全部提取出来,用什么方法比较好呢
比如,
标题1:我爱中国
标题2:我很爱中国
标题3:你吃饭了吗
标题4:今天天气真好
标题5:今天的天气真好
标题6:今天的天气是晴天真好
标题7:论坛的用户都是好人

等等

这种,标题1 和 标题2 属于相似,拿出来
然后标题 4 5 6是相似的,也拿出来

标题 3 和 7 都和谁都不相似, 直接pass

目前装了 Elasticsearch 但是不知道具体怎么操作

  • 写回答

6条回答 默认 最新

  • 足迹คค 2022-07-22 09:28
    关注

    使用分词
    直接根据每一个标题分词后在进行分词查询,定好分词查询的匹配度后获取匹配度超过你定好的值就是相似的。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

问题事件

  • 系统已结题 8月5日
  • 已采纳回答 7月28日
  • 创建了问题 7月21日