lucene5.4 中文单字搜索命中为0

如题。求大神帮忙，这边的需求是将中文拆成单个字进行匹配。用过S、andardAnalyzer/JcsegAnalyzer5X效果好差。比如说存有“单车”这个词，如果我以“单”作为条件的话。是无法命中的。除非加了模糊*。但是加了模糊就没办法高亮了。。。。求大神帮忙！搞了几天一直没处理这个问题

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

AngusC· 2017-05-20 16:11

关注

给你看我做百度网盘的时候用到lucene做的工具类，

 /**
 * 索引类
 * @author user
 *
 */
public class PanIndex {

    private Directory dir=null;

    private static final String LUCENE_PATH=PropertiesUtil.getValue("lucenePath");

    /**
     * 获取IndexWriter实例
     * @return
     * @throws Exception
     */
    private IndexWriter getWriter()throws Exception{
        dir=FSDirectory.open(Paths.get(LUCENE_PATH));
        Analyzer analyzer=new StandardAnalyzer();
        IndexWriterConfig iwc=new IndexWriterConfig(analyzer);
        IndexWriter writer=new IndexWriter(dir, iwc);
        return writer;
    }

    /**
     * 添加Pan索引
     * @param jar
     */
    public void addIndex(PanBean pan)throws Exception{
        IndexWriter writer=getWriter();
        Document doc=new Document();
        doc.add(new StringField("id",pan.getUuid(),Field.Store.YES));
        doc.add(new TextField("name",pan.getName(),Field.Store.YES));
        writer.addDocument(doc);
        writer.close();
    }

    /**
     * 更新Pan索引
     * @param blog
     * @throws Exception
     */
    public void updateIndex(PanBean pan)throws Exception{
        IndexWriter writer=getWriter();
        Document doc=new Document();
        doc.add(new StringField("id",pan.getUuid(),Field.Store.YES));
        doc.add(new TextField("name",pan.getName(),Field.Store.YES));
        writer.updateDocument(new Term("id", String.valueOf(pan.getUuid())), doc);
        writer.close();
    }

    /**
     * 删除指定Pan的索引
     * @param jarId
     * @throws Exception
     */
    public void deleteIndex(String panId)throws Exception{
        IndexWriter writer=getWriter();
        writer.deleteDocuments(new Term("id",panId));
        writer.forceMergeDeletes(); // 强制删除
        writer.commit();
        writer.close();
    }

    /**
     * 查询信息
     * @param q 查询关键字
     * @param n 查询个数
     * @return
     * @throws Exception
     */
    public List<PanBean> searchPan(String q,int n)throws Exception{
        dir=FSDirectory.open(Paths.get(LUCENE_PATH));
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher is=new IndexSearcher(reader);
        Analyzer analyzer = null;
        try {
        analyzer=new StandardAnalyzer();
        //Analyzer analyzer = new PaodingAnalyzer();
        QueryParser parser=new QueryParser("name",analyzer);
        Query query=parser.parse(q);
        TopDocs hits=is.search(query, n); // 查询n条
        QueryScorer scorer=new QueryScorer(query);  
        Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);  
        SimpleHTMLFormatter simpleHTMLFormatter=new SimpleHTMLFormatter("<b><font color='red'>","</font></b>");
        Highlighter highlighter=new Highlighter(simpleHTMLFormatter, scorer);
        highlighter.setTextFragmenter(fragmenter);  
        List<PanBean> panList=new LinkedList<PanBean>();
        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            PanBean pan=new PanBean();
            pan.setUuid(doc.get(("id")));
            pan.setType(doc.get("type"));
            pan.setSize(doc.get("size"));
            String name=doc.get("name");
            pan.setName2(name);
            if(name!=null){
                TokenStream tokenStream = analyzer.tokenStream("name", new StringReader(name));
                String hName=highlighter.getBestFragment(tokenStream, name);
                if(StringUtil.isEmpty(hName)){
                    pan.setName(doc.get("name"));
                }else{
                    pan.setName(hName);
                }
            }
            panList.add(pan);
        }
        return panList;
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            reader.close();
        }
        return null;
    }
    /**
     * 模糊查询
     * @param q 参数
     * @param n 查询个数
     * @return
     * @throws Exception
     */
    public List<PanBean> searchMohuPan(String q,int n)throws Exception{
        dir=FSDirectory.open(Paths.get(LUCENE_PATH));
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher is=new IndexSearcher(reader);
        Analyzer analyzer = null;
        try {   
        analyzer=new StandardAnalyzer();
        Query parser=new FuzzyQuery(new Term("name",q+"~"));
        //Query query=parser.parse(q);
        TopDocs hits=is.search(parser, n); // 查询n条
        QueryScorer scorer=new QueryScorer(parser);  
        Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);  
        SimpleHTMLFormatter simpleHTMLFormatter=new SimpleHTMLFormatter("<b><font color='red'>","</font></b>");
        Highlighter highlighter=new Highlighter(simpleHTMLFormatter, scorer);
        highlighter.setTextFragmenter(fragmenter);  
        List<PanBean> panList=new LinkedList<PanBean>();
        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            PanBean pan=new PanBean();
            pan.setUuid(doc.get(("id")));
            String name=doc.get("name");
            pan.setType(doc.get("type"));
            pan.setSize(doc.get("size"));
            //pan.setClick(Integer.valueOf(doc.get("click")));
            pan.setName2(name);
            if(name!=null){
                TokenStream tokenStream = analyzer.tokenStream("name", new StringReader(name));
                String hName=highlighter.getBestFragment(tokenStream, name);
                if(StringUtil.isEmpty(hName)){
                    pan.setName(doc.get("name"));
                }else{
                    pan.setName(hName);
                }
                }
                panList.add(pan);
            }
            return panList;

        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            analyzer.close();
            reader.close();
        }
        return null;
    } 
    /**
     * 查询相关资源 不用html包装
     * @param q 参数
     * @param n 查询个数
     * @return
     * @throws Exception
     */
    public List<PanBean> searchRelatedPan(String q,int n)throws Exception{
        dir=FSDirectory.open(Paths.get(LUCENE_PATH));
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher is=new IndexSearcher(reader);
        Analyzer analyzer = null;
        try {
        analyzer=new StandardAnalyzer();
        QueryParser parser=new QueryParser("name",analyzer);
        Query query=parser.parse(q);
        TopDocs hits=is.search(query, n); // 查询n条
    //  QueryScorer scorer=new QueryScorer(query);  
        //Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);  
        List<PanBean> panList=new LinkedList<PanBean>();
        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            PanBean pan=new PanBean();
            pan.setUuid(doc.get(("id")));
            String name=doc.get("name");
            //pan.setName2(name);
            pan.setName(name);
            pan.setType(doc.get("type"));
            panList.add(pan);
        }
        return panList;
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            analyzer.close();
            reader.close();
        }
        return null;
    } 
    /**
     * 精确查找
     * @param q
     * @param n
     * @return
     * @throws Exception
     */
    public List<PanBean> searchPanByType(String q,int n)throws Exception{
        dir=FSDirectory.open(Paths.get(LUCENE_PATH));
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher is=new IndexSearcher(reader);
        try {

        Query query=new TermQuery(new Term("type",q)); 
        TopDocs hits=is.search(query, n); // 查询n条
        List<PanBean> panList=new LinkedList<PanBean>();
        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            PanBean pan=new PanBean();
            pan.setUuid(doc.get(("id")));
            pan.setType(doc.get("type"));
            pan.setSize(doc.get("size"));
            //pan.setClick(GetRandom.getRandomInt(235, 879));
            String name=doc.get("name");
            pan.setName(name);
            panList.add(pan);
        }
        return panList;
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            reader.close();
        }
        return null;
    }
    public static void main(String[] args) throws Exception {
        Long start =System.currentTimeMillis();
        System.out.println(new PanIndex().searchPanByType("压缩包",100).size());
        Long end = System.currentTimeMillis();
        System.out.println(end-start);
    } 
}

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

lucene5.4 中文单字搜索命中为0 lucene
2017-05-20 13:36

回答 2 已采纳给你看我做百度网盘的时候用到lucene做的工具类， ``` /** * 索引类 * @author user * */ public class PanIndex {
java lucene的搜索和翻页效率？ java lucene
2018-05-09 07:26

回答 3 已采纳检索分页本来就很慢,你没觉得百度只有前几页的数据有效，后几页的数据基本就没用或者和前几页很一样
Lucene 2.4 搜索结果为空 lucene
2009-07-08 11:21

回答 1 已采纳这是分词问题,你建立索引时用的是StandardAnalyzer分词器,这是个标准分词器,把一个单词或一个汉字当成一个索引,估计你的文件名"1.txt","2.txt","abc.txt"都被分解成一
ElasticSearch 之文本搜索
2022-08-02 23:00

Kuo-Teng的博客 1. 作为一款搜索引擎框架，文本搜索...2. ES在文本索引的建立和搜索过程中依赖两大组件，即Lucene和分析器。 3. Lucene负责进行倒排索引的物理构建，分析器负责在建立倒排索引前和搜索前对文本进行分词和语法处理。...
lucene多条件搜索时or与and问题 lucene
2013-06-08 08:23

回答 3 已采纳 should戴表两个字段中必须有一个..must是必须都存在...你看看大小写啥的..有可能建索引的时候全都小写了
学习lucene建立检索和搜索过程中遇到的错误 lucene
2014-04-24 17:52

回答 2 已采纳 Query query = parser.parse("document.txt"); 用全名称来搜，或者Query query = parser.parse("document*"); 因为St
C# Lucene.Net对搜索结果添加超链接 c# lucene
2015-08-24 08:57

回答 1 已采纳运行你的程序，在浏览器中点查看源代码贴出对应的代码，看看什么问题
2023-02-10 - 5 文本搜索
2023-02-11 13:04

@Autowire的博客 ES在文本索引的建立和搜索过程中依赖两大组件，即Lucene和分析器。其中，Lucene负责进行倒排索引的物理构建分析器负责在建立倒排索引前和搜索前对文本进行分词和语法处理。本节将文本的搜索功能拆分成索引建立过程和...
keyword和text能一起搜索吗？ elasticsearch lucene 中文分词全文检索搜索引擎
2020-05-21 23:43

回答 2 已采纳可以这样写： ``` POST YOUR_INDEX/_search { "query": { "bool": { "must": [ {
关于java搜索引擎lucene为数据库做索引的一点不解？ lucene
2009-07-24 09:37

回答 1 已采纳利用lucene之类的搜索引擎达到的效果和数据库查询优势是什么啊 lucene 比数据库查询要快. 数据库查询搜索相关文本只能用 like ,like 不用使用索引,全文索引慢.
关于lucene.net站内搜索的简单问题
2016-05-06 06:08

回答 1 已采纳是中文么，中文需要分词。参考：http://www.cnblogs.com/lhj588/archive/2013/02/06/2900937.html
Elasticsearch -- 学习笔记
2021-11-27 14:42

丑基地的博客 Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的 RESTful API 来隐藏Lucene的复杂性，从而让全文搜索变得简单。 1.1 Elasticsearch 安装 1.1 下载软件...
Lucene中的highlighter.getBestFragment 取值为空 lucene
2015-08-10 07:16

回答 0 已采纳 Lucene中的highlighter----------------------同志你好，我是CSDN问答机器人小N，奉组织之命为你提供参考答案，编程尚未成功，同志仍需努力！
Solr——企业级搜索应用服务器
2024-03-16 21:16

wpj130的博客概念介绍：文档：document是lucene进行索引创建以及搜索的基本单元，我们要把数据添加到Lucene的索引库中，数据结构就是document，如果我从Lucene的索引库中进行数据的搜索，搜索出来的结果的数据结构也...
ElasticSearch 基础（四）之常用 API 测试
2023-02-28 18:41

云三木的博客本文示例以 Elastic...还有一点是关于翻译的问题，ES 的中文版版本太低，我们常用的还是英文版，谷歌的翻译功能又不可用，想要翻译成中文可以使用 Edge 浏览器。DownGitGitHub ES 8.6 文档地址（也可选择其他版本）
没有解决我的问题, 去提问

悬赏问题

¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 关于#python#的问题：自动化测试

码龄粉丝数原力等级 --

lucene5.4 中文单字搜索命中为0

2条回答

码龄粉丝数原力等级 --

悬赏问题