wy1472586 2022-07-21 13:40 采纳率: 100%
浏览 72
已结题

数据库检索相关,提取相似文本

目前数据库里面有1000万个文章标题,然后我想把这1000万里面,有相似的标题全部提取出来,用什么方法比较好呢
比如,
标题1:我爱中国
标题2:我很爱中国
标题3:你吃饭了吗
标题4:今天天气真好
标题5:今天的天气真好
标题6:今天的天气是晴天真好
标题7:论坛的用户都是好人

等等

这种,标题1 和 标题2 属于相似,拿出来
然后标题 4 5 6是相似的,也拿出来

标题 3 和 7 都和谁都不相似, 直接pass

目前装了 Elasticsearch 但是不知道具体怎么操作

  • 写回答

6条回答 默认 最新

  • TByoung 2022-07-22 09:28
    关注

    使用分词
    直接根据每一个标题分词后在进行分词查询,定好分词查询的匹配度后获取匹配度超过你定好的值就是相似的。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

问题事件

  • 系统已结题 8月5日
  • 已采纳回答 7月28日
  • 创建了问题 7月21日

悬赏问题

  • ¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事:
  • ¥15 前置放大电路与功率放大电路相连放大倍数出现问题
  • ¥30 关于<main>标签页面跳转的问题
  • ¥80 部署运行web自动化项目
  • ¥15 腾讯云如何建立同一个项目中物模型之间的联系
  • ¥30 VMware 云桌面水印如何添加
  • ¥15 用ns3仿真出5G核心网网元
  • ¥15 matlab答疑 关于海上风电的爬坡事件检测
  • ¥88 python部署量化回测异常问题
  • ¥15 在现有系统基础上增加功能