java lucene的搜索和翻页效率?

lucene上千万的数据翻页怎么这么慢啊,基本上要5s-6s。前面的页数还比较快,越到后面的页数翻页越慢。
贴上代码:
方式一:

 public static void searchPage(int pageIndex,int pageSize) throws IOException, ParseException{
        Date start=new Date();
        Directory dir=FSDirectory.open(Paths.get("D:\\FCJS\\FCJS_bigdata_lucene5.3.0"));
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher searcher=new IndexSearcher(reader);
        Analyzer analyzer=new IKAnalyzer(false);//false细粒度分词,true智能分词
        QueryParser parser=new QueryParser("all", analyzer);
        Query query=parser.parse("all");
        TopDocs tds = searcher.search(query,Integer.MAX_VALUE);
        ScoreDoc[] sds = tds.scoreDocs;
        int page_start = (pageIndex-1)*pageSize;  
        int page_end = pageIndex*pageSize;
        for(int i=page_start;i<page_end;i++) {  
            Document doc = searcher.doc(sds[i].doc);  
            System.out.println(sds[i].doc+":"+doc.get("ArticleID"));  
        }
        Date end=new Date();
        System.out.println("耗时:"+(end.getTime()-start.getTime())+"ms");
    }

方式二:

 private static void searchPageByAfter(int pageIndex,int pageSize) throws IOException, ParseException{
        Date start=new Date();
        Directory dir=FSDirectory.open(Paths.get("D:\\FCJS\\FCJS_bigdata"));
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher searcher=new IndexSearcher(reader);
        Analyzer analyzer=new IKAnalyzer(false);//false细粒度分词,true智能分词
        QueryParser parser=new QueryParser("all", analyzer);
        Query query=parser.parse("all");
        //获取上一页的最后一个元素  
        ScoreDoc lastSd = getLastScoreDoc(pageIndex, pageSize, query, searcher); 
      //通过最后一个元素去搜索下一页的元素  
        TopDocs tds = searcher.searchAfter(lastSd,query, pageSize);
        for(ScoreDoc sd:tds.scoreDocs) {  
            Document doc = searcher.doc(sd.doc);  
            System.out.println(sd.doc+":"+doc.get("ArticleID"));  
        } 
        Date end=new Date();
        System.out.println("耗时:"+(end.getTime()-start.getTime())+"ms");
    }

3个回答

检索分页本来就很慢,你没觉得百度只有前几页的数据有效,后几页的数据基本就没用或者和前几页很一样

正常情况下方法二的所用的时间应该比方法一来的短。不知道上述的方法一与方法二所耗时具体多少毫秒?
主要区别就是在于方法一中
TopDocs tds = searcher.search(query,Integer.MAX_VALUE);

每次需要查询Integer.MAX_VALUE 这么多的数据,然后再进行分页,而如果当数据量操作Integer.MAX_VALUE时,可能就无法查询出后面的数据了。

一般分页个人觉得应该采用方法二中比较合适。但不知道getLastScoreDoc(pageIndex, pageSize, query, searcher)这个方法中具体的实现是什么。
之前做过一个lucene分页,也是采用方法二中的方式,但数据量并没有达到千万级,不确定效率如何,贴下代码,可做参考

 TopDocs topDocs = null;  
        ScoreDoc before = null;  
        if(pageIndex != 1){  //正常情况下pageIndex>=1
            TopDocs docsBefore = searcher.search(query, (pageIndex-1)*pageSize);  
            ScoreDoc[] scoreDocs = docsBefore.scoreDocs;  
            if(scoreDocs.length > 0){  
                before = scoreDocs[scoreDocs.length - 1];  
            }  
        }  
        topDocs = searcher.searchAfter(before, query, pageSize);  

还有,在新增、修改或删除数据时记得要对索引进行相应操作

lianjie_c
lianjie_c 回复qq_36375934: getLastScoreDoc方法与我那个差不多,至于后面400W页查询很慢的原因,可能需要做其他的优化,比如JVM,索引优化等等,这个暂时无法做出相应准确的解答,希望有其他人能够帮上你的忙。
大约 2 年之前 回复
qq_36375934
qq_charm 方法二,是要比方法一快些。但是方法二查询400W页的时候,耗时34866ms,这个也太慢了吧
大约 2 年之前 回复
qq_36375934
qq_charm 嗯,这个方法忘记贴了getLastScoreDoc,再看下。现在有4000W的数据量,两个方法的时间差不多,翻页是越到后面越慢
大约 2 年之前 回复
 private static ScoreDoc getLastScoreDoc(int pageIndex,int pageSize,Query query,IndexSearcher searcher) throws IOException{
        if(pageIndex==1)return null;//如果是第一页就返回空  
        int num = pageSize*(pageIndex-1);//获取上一页的最后数量  
        TopDocs tds = searcher.search(query, num);  
        return tds.scoreDocs[num-1];  
    }
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐