dxsksk 2011-01-04 10:37
浏览 717
已采纳

Lucene全文检索去重问题

比如一个论坛的主题,,加答的内容有多个

例子:
spring是怎么?

回答一:spring是。。。。AA。。

回答二:spring是 BB

这样一来,你搜索回答spring时,就会出现多个”spring是怎么“的标题。。。。
Lucene里面提供了一个DuplicateFilter去重,,,不过这有个问题,,,他在去重时,只保留最后一条或最后一条,把其他的 忽略掉,,,如过滤最后一条时(回答二时),,,我搜“BB”就不会关联出标题。。。

。。。。。给个解决方案

  • 写回答

6条回答 默认 最新

  • beneo 2011-01-04 15:43
    关注

    fiter不是用来过滤掉你不要的文档,而是你要的文档

    而且DuplicatedFilter因为位置的关系,“碰巧”让你碰到了最后一个或者第一个文档。。(你可以试试加入第三个文档,中文唯一的文档你永远弄不出来)

    DuplicatedFilter只能过滤duplicated的文档

    要解决这个办法,自己写出一个query,来合并结果集合

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料