dxsksk 2011-01-04 10:37
浏览 718
已采纳

Lucene全文检索去重问题

比如一个论坛的主题,,加答的内容有多个

例子:
spring是怎么?

回答一:spring是。。。。AA。。

回答二:spring是 BB

这样一来,你搜索回答spring时,就会出现多个”spring是怎么“的标题。。。。
Lucene里面提供了一个DuplicateFilter去重,,,不过这有个问题,,,他在去重时,只保留最后一条或最后一条,把其他的 忽略掉,,,如过滤最后一条时(回答二时),,,我搜“BB”就不会关联出标题。。。

。。。。。给个解决方案

  • 写回答

6条回答 默认 最新

  • beneo 2011-01-04 15:43
    关注

    fiter不是用来过滤掉你不要的文档,而是你要的文档

    而且DuplicatedFilter因为位置的关系,“碰巧”让你碰到了最后一个或者第一个文档。。(你可以试试加入第三个文档,中文唯一的文档你永远弄不出来)

    DuplicatedFilter只能过滤duplicated的文档

    要解决这个办法,自己写出一个query,来合并结果集合

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥20 iOS绕地区网络检测
  • ¥15 python验证码滑块图像识别
  • ¥15 根据背景及设计要求撰写设计报告
  • ¥15 QT6颜色选择对话框显示不完整
  • ¥20 能提供一下思路或者代码吗
  • ¥15 用twincat控制!
  • ¥15 请问一下这个运行结果是怎么来的
  • ¥15 单通道放大电路的工作原理
  • ¥30 YOLO检测微调结果p为1
  • ¥15 DS18B20内部ADC模数转换器