dxsksk 2011-01-04 10:37
浏览 717
已采纳

Lucene全文检索去重问题

比如一个论坛的主题,,加答的内容有多个

例子:
spring是怎么?

回答一:spring是。。。。AA。。

回答二:spring是 BB

这样一来,你搜索回答spring时,就会出现多个”spring是怎么“的标题。。。。
Lucene里面提供了一个DuplicateFilter去重,,,不过这有个问题,,,他在去重时,只保留最后一条或最后一条,把其他的 忽略掉,,,如过滤最后一条时(回答二时),,,我搜“BB”就不会关联出标题。。。

。。。。。给个解决方案

  • 写回答

6条回答 默认 最新

  • beneo 2011-01-04 15:43
    关注

    fiter不是用来过滤掉你不要的文档,而是你要的文档

    而且DuplicatedFilter因为位置的关系,“碰巧”让你碰到了最后一个或者第一个文档。。(你可以试试加入第三个文档,中文唯一的文档你永远弄不出来)

    DuplicatedFilter只能过滤duplicated的文档

    要解决这个办法,自己写出一个query,来合并结果集合

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥15 如何获取烟草零售终端数据
  • ¥15 数学建模招标中位数问题
  • ¥15 phython路径名过长报错 不知道什么问题
  • ¥15 深度学习中模型转换该怎么实现
  • ¥15 HLs设计手写数字识别程序编译通不过
  • ¥15 Stata外部命令安装问题求帮助!
  • ¥15 从键盘随机输入A-H中的一串字符串,用七段数码管方法进行绘制。提交代码及运行截图。
  • ¥15 TYPCE母转母,插入认方向
  • ¥15 如何用python向钉钉机器人发送可以放大的图片?
  • ¥15 matlab(相关搜索:紧聚焦)