dxsksk
dxsksk
2011-01-04 10:37

Lucene全文检索去重问题

已采纳

比如一个论坛的主题,,加答的内容有多个

例子:
spring是怎么?

回答一:spring是。。。。AA。。

回答二:spring是 BB

这样一来,你搜索回答spring时,就会出现多个”spring是怎么“的标题。。。。
Lucene里面提供了一个DuplicateFilter去重,,,不过这有个问题,,,他在去重时,只保留最后一条或最后一条,把其他的 忽略掉,,,如过滤最后一条时(回答二时),,,我搜“BB”就不会关联出标题。。。

。。。。。给个解决方案

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答

6条回答

  • beneo beneo 10年前

    fiter不是用来过滤掉你不要的文档,而是你要的文档

    而且DuplicatedFilter因为位置的关系,“碰巧”让你碰到了最后一个或者第一个文档。。(你可以试试加入第三个文档,中文唯一的文档你永远弄不出来)

    DuplicatedFilter只能过滤duplicated的文档

    要解决这个办法,自己写出一个query,来合并结果集合

    点赞 评论 复制链接分享
  • beneo beneo 10年前

    用了ik分词的demo,你看看,是不是符合你的需求
    [code="java"]
    /**
    *
    */
    package org.wltea.analyzer.test;

    import java.io.IOException;

    import org.apache.lucene.analysis.Analyzer;
    import org.apache.lucene.analysis.cn.ChineseAnalyzer;
    import org.apache.lucene.document.Document;
    import org.apache.lucene.document.Field;
    import org.apache.lucene.index.CorruptIndexException;
    import org.apache.lucene.index.IndexWriter;
    import org.apache.lucene.index.Term;
    import org.apache.lucene.queryParser.MultiFieldQueryParser;
    import org.apache.lucene.queryParser.ParseException;
    import org.apache.lucene.queryParser.QueryParser;
    import org.apache.lucene.search.*;
    import org.apache.lucene.search.similar.MoreLikeThis;
    import org.apache.lucene.search.similar.MoreLikeThisQuery;
    import org.apache.lucene.store.Directory;
    import org.apache.lucene.store.LockObtainFailedException;
    import org.apache.lucene.store.RAMDirectory;
    import org.apache.lucene.util.Version;
    import org.wltea.analyzer.lucene.IKAnalyzer;
    import org.wltea.analyzer.lucene.IKQueryParser;
    import org.wltea.analyzer.lucene.IKSimilarity;

    /**

    • @author linly
      */
      public class IKAnalyzerDemo {

      public static void main(String[] args) {
      //Lucene Document的域名;

      //实例化IKAnalyzer分词器
      Analyzer analyzer = new IKAnalyzer();
      
      Directory directory = null;
      IndexWriter iwriter = null;
      IndexSearcher isearcher = null;
      try {
          //建立内存索引对象
          directory = new RAMDirectory();
          iwriter = new IndexWriter(directory, analyzer, true, IndexWriter.MaxFieldLength.LIMITED);
          Document doc = new Document();
          doc.add(new Field("topicId", "1", Field.Store.YES, Field.Index.NOT_ANALYZED));
          doc.add(new Field("answerId", "1", Field.Store.YES, Field.Index.NOT_ANALYZED));
          doc.add(new Field("content", "spring 是怎么? spring 是一个整合了多功能框架", Field.Store.YES, Field.Index.ANALYZED));
          iwriter.addDocument(doc);
      
          Document doc2 = new Document();
          doc2.add(new Field("topicId", "1", Field.Store.YES, Field.Index.NOT_ANALYZED));
          doc2.add(new Field("answerId", "2", Field.Store.YES, Field.Index.NOT_ANALYZED));
          doc2.add(new Field("content", "spring 是怎么? spring 里面包含了模型-视图-控制", Field.Store.YES, Field.Index.ANALYZED));
          iwriter.addDocument(doc2);
      
          iwriter.close();
      
          //实例化搜索器
          isearcher = new IndexSearcher(directory);
      
          BooleanQuery bq = new BooleanQuery();
          TermQuery tq = new TermQuery(new Term("content", "模型"));
          bq.add(tq, BooleanClause.Occur.MUST);
      
          DuplicateFilter df = new DuplicateFilter("topicId");
          df.setKeepMode(DuplicateFilter.PM_FAST_INVALIDATION);
      
          //搜索相似度最高的5条记录
          TopDocs topDocs = isearcher.search(bq,df,5);
          System.out.println("命中:" + topDocs.totalHits);
          System.out.println("分数:" + topDocs.getMaxScore());
          //输出结果
          ScoreDoc[] scoreDocs = topDocs.scoreDocs;
          for (int i = 0; i < topDocs.totalHits; i++) {
              Document targetDoc = isearcher.doc(scoreDocs[i].doc);
              System.out.println("内容:" + targetDoc.toString());
          }
      
      } catch (CorruptIndexException e) {
          e.printStackTrace();
      } catch (LockObtainFailedException e) {
          e.printStackTrace();
      } catch (IOException e) {
          e.printStackTrace();
      } finally {
          if (isearcher != null) {
              try {
                  isearcher.close();
              } catch (IOException e) {
                  e.printStackTrace();
              }
          }
          if (directory != null) {
              try {
                  directory.close();
              } catch (IOException e) {
                  e.printStackTrace();
              }
          }
      }
      

      }
      }

    [/code]

    点赞 评论 复制链接分享
  • beneo beneo 10年前

    http://www.iteye.com/problems/search?query=spring+%E4%BA%8B%E7%89%A9+%E9%85%8D%E7%BD%AE

    我在问答频道搜索spring 事物 配置

    你可以看到第一个出现的主题名字只有spring事物

    你可以明显的感觉到,javaeye是把[b]所有问答[/b]和主题一起作为内容进行索引的,结果只有主题id,所以遮掩根本不需要用到duplicateFilter了

    你的需求是这样子的么?

    如果你希望在一个query里面,如果匹配出来的结果,你查询的某个term正好在主题里面,就现实单一主题,按照主题进行显示,后面再按照问答显示;如果你查询的所有terms都不再主题里面,就显示所有回答

    点赞 评论 复制链接分享
  • beneo beneo 10年前

    [quote]这个被他去重之后是只剩下一个,,我是要引申最下面的一个问题,,那就是我搜索
    BB时,就搜索不到"spring是怎么"但是问题里面有一个"BB"的回答[/quote]

    你还要指定duplicateFilter如何去重?如果你都知道怎么去重,那你加上一个FilteredQuery看看。。

    不过我觉得去掉duplicateFilter,为啥你要如此执着?

    我就不相信你在query的时候,
    指定
    BB Occor.MUST
    spring OCCOR.MUST
    你得到的结果里面没有 BB Spring ??

    点赞 评论 复制链接分享
  • beneo beneo 10年前

    [quote]我设置就是按你设置的,我跟踪过他的源码,duplicateFilter的去重是根据先把所有的document里面有重复的去掉,然后再进行查询,这样一来,就产生里面的那个,问答缺失....只剩下最后一条,或者第一条,并不是把查询出来的进行去重....
    [/quote]

    我没有看源代码,但是我看的是api,duplicateFilter不适合你现在的场景。

    既然你按照我的说法去做的,那么查询的到的结果应该只有问答的id,那么是不可能出现以下的情况的
    [quote]这样一来,你搜索回答spring时,就会出现多个”spring是怎么“的标题[/quote]

    你可以拿到这个ask id,来组合出各种表现形式

    点赞 评论 复制链接分享
  • beneo beneo 10年前

    你对duplicateFilter的理解错了,比如说我们有一个主题,每个主题都有很多回答,每个主题又只有一个主题id,然而我们是按照一个回答作为 Document 进行索引的,于是进行搜索的时候,当一个主题的两个回答都包含关键词的时候,此主题 id 在结果集中出现两次,这是我们不想看到的。我们希望看到不同的主题。DuplicateFilter 就是做这个的。

    解决办法的话,简单的就是

    主题 + 回答 一起作为document放进去

    field id - 回答的id - 不分词,索引,存储
    field text - 主题内容 + 回答内容 - 分词,索引,不存储

    点赞 评论 复制链接分享

相关推荐