Lucene全文检索去重问题

比如一个论坛的主题，，加答的内容有多个

例子：
spring是怎么？

回答一：spring是。。。。AA。。

回答二：spring是 BB

这样一来，你搜索回答spring时，就会出现多个”spring是怎么“的标题。。。。
Lucene里面提供了一个DuplicateFilter去重，，，不过这有个问题，，，他在去重时，只保留最后一条或最后一条，把其他的　忽略掉，，，如过滤最后一条时（回答二时），，，我搜“BB”就不会关联出标题。。。

。。。。。给个解决方案

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
beneo 2011-01-04 15:43
关注
fiter不是用来过滤掉你不要的文档，而是你要的文档

而且DuplicatedFilter因为位置的关系，“碰巧”让你碰到了最后一个或者第一个文档。。（你可以试试加入第三个文档，中文唯一的文档你永远弄不出来）

DuplicatedFilter只能过滤duplicated的文档

要解决这个办法，自己写出一个query，来合并结果集合

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(5条)

报告相同问题？

关注问题

通信与网络中的Lucene全文检索引擎在商业网站中的应用
2020-10-22 09:12

Lucene，由Apache软件基金会的Jakarta项目组开发，是一个开源的全文检索引擎工具包，它不是一个完整的搜索引擎，而是一个用于构建搜索引擎的基础框架。Lucene提供了全面的查询和索引引擎，以及对英语和德语的文本...
Lucene 索引去重
2018-08-30 19:50

車輪の唄的博客在使用Lucene过程中，会发现当我们为添加新的Document时，会产生重复现象（两次添加同一个Document），毕竟Lucene中没有像数据库中一样，有键可以区分。不过我们可以通过为Document建立类似于键的域，来防止添加重复...
基于Hadoop-MapReduce和HBase分布式计算框架结合Lucene全文检索技术构建的网页内容抓取与搜索引擎系统-包含URL注入-网页抓取-链接解析-文章信息提取与去重优.zip
2025-11-02 21:07

本项目正是围绕这一需求，通过结合Hadoop-MapReduce和HBase分布式计算框架，并集成Lucene全文检索技术，来构建一个网页内容抓取与搜索引擎系统。 Hadoop-MapReduce作为一种分布式计算框架，能够有效地处理大量数据...
Lucene---全文检索(处理一对多去重问题 )
2011-01-13 16:15

dxsksk的博客在处理如＂问答＂功能时，以答进行搜索，这时假就会出现去重问题－－－＞http://www.iteye.com/problems/56869 解决方案：１，写个线程管理器，用来存储当前查出的重复数据 /* * CopyRright (c) ...
SpringMVC Lucene 全文检索
2016-07-13 11:08

sw69366的博客第一次接触Lucene 做个Demo 先看看效果，最终搜索就是这样的。添加索引 url 没有过滤，所以存在有些没有域名不可跳转的现象。拿到源码后这个索引路径需要修改一下，代码包的里war 由于没有配置路径所以用...
使用Lucene实现全文检索的基本实例
2025-07-14 05:12

Bachnroth的博客 全文检索技术作为一种高效的信息检索手段，在信息时代扮演了至关...本文将首先介绍全文检索技术的基本概念和原理，然后深入分析当前流行的全文检索库，如Lucene，并展示如何在不同场景下实现全文检索系统的搭建和优化。
全文检索Lucene
2020-09-26 21:33

Restrained°的博客数据库搜索坏处 1、海量数据like查询效率低在查询的时候sql会使用like检索，但是like使用的时候如果以通配符‘%’开始是不会...广义：对结构化数据先创建索引，然后从索引中检索的搜索。狭义：对文本数据搜索全文
lucene原理
2024-06-16 23:20

Android_chunhui的博客由于Lucene进行关键词检索时需要加载索引段进行下一步搜索，如果索引段较多会增加较大的I/O开销，减慢检索速度，因此写入时会通过段合并策略对不同的段进行合并。：保存了不同前缀对应的相应的Term及相应的倒排表...
基于Lucene垂直搜索引擎的研究与开发实践报告
2023-02-06 15:32

头顶黑黑草原的博客在查询界面中设置了两个模块，分别具有搜索书籍和搜索新闻的功能每一页显示十条内容可根据页码进行页面间的跳转。在查询时使用组合查询，同时在 fileContent 和 fileName 两个域中查找关键词，从而实现在标题和内容...
lucene 如何在query完成后进行过滤去重(不引响分页功能)
2013-07-27 12:29

iteye_6633的博客最近项目中有用到lucene，第一次使用些开源工具记录下从中遇到的开发问题。版本： 3.6 需求：在创建索引时一个主字段可能对应多条索引记录，其它字段数据不同。如a(1,2,b(3,4))索引就要建成(1,2...
没有解决我的问题, 去提问

Lucene全文检索去重问题

6条回答 默认 最新

6条回答默认最新