lucene5.4 中文单字搜索命中为0

如题。求大神帮忙，这边的需求是将中文拆成单个字进行匹配。用过S、andardAnalyzer/JcsegAnalyzer5X效果好差。比如说存有“单车”这个词，如果我以“单”作为条件的话。是无法命中的。除非加了模糊*。但是加了模糊就没办法高亮了。。。。求大神帮忙！搞了几天一直没处理这个问题

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

AngusC· 2017-05-20 16:11

关注

给你看我做百度网盘的时候用到lucene做的工具类，

 /**
 * 索引类
 * @author user
 *
 */
public class PanIndex {

    private Directory dir=null;

    private static final String LUCENE_PATH=PropertiesUtil.getValue("lucenePath");

    /**
     * 获取IndexWriter实例
     * @return
     * @throws Exception
     */
    private IndexWriter getWriter()throws Exception{
        dir=FSDirectory.open(Paths.get(LUCENE_PATH));
        Analyzer analyzer=new StandardAnalyzer();
        IndexWriterConfig iwc=new IndexWriterConfig(analyzer);
        IndexWriter writer=new IndexWriter(dir, iwc);
        return writer;
    }

    /**
     * 添加Pan索引
     * @param jar
     */
    public void addIndex(PanBean pan)throws Exception{
        IndexWriter writer=getWriter();
        Document doc=new Document();
        doc.add(new StringField("id",pan.getUuid(),Field.Store.YES));
        doc.add(new TextField("name",pan.getName(),Field.Store.YES));
        writer.addDocument(doc);
        writer.close();
    }

    /**
     * 更新Pan索引
     * @param blog
     * @throws Exception
     */
    public void updateIndex(PanBean pan)throws Exception{
        IndexWriter writer=getWriter();
        Document doc=new Document();
        doc.add(new StringField("id",pan.getUuid(),Field.Store.YES));
        doc.add(new TextField("name",pan.getName(),Field.Store.YES));
        writer.updateDocument(new Term("id", String.valueOf(pan.getUuid())), doc);
        writer.close();
    }

    /**
     * 删除指定Pan的索引
     * @param jarId
     * @throws Exception
     */
    public void deleteIndex(String panId)throws Exception{
        IndexWriter writer=getWriter();
        writer.deleteDocuments(new Term("id",panId));
        writer.forceMergeDeletes(); // 强制删除
        writer.commit();
        writer.close();
    }

    /**
     * 查询信息
     * @param q 查询关键字
     * @param n 查询个数
     * @return
     * @throws Exception
     */
    public List<PanBean> searchPan(String q,int n)throws Exception{
        dir=FSDirectory.open(Paths.get(LUCENE_PATH));
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher is=new IndexSearcher(reader);
        Analyzer analyzer = null;
        try {
        analyzer=new StandardAnalyzer();
        //Analyzer analyzer = new PaodingAnalyzer();
        QueryParser parser=new QueryParser("name",analyzer);
        Query query=parser.parse(q);
        TopDocs hits=is.search(query, n); // 查询n条
        QueryScorer scorer=new QueryScorer(query);  
        Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);  
        SimpleHTMLFormatter simpleHTMLFormatter=new SimpleHTMLFormatter("<b><font color='red'>","</font></b>");
        Highlighter highlighter=new Highlighter(simpleHTMLFormatter, scorer);
        highlighter.setTextFragmenter(fragmenter);  
        List<PanBean> panList=new LinkedList<PanBean>();
        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            PanBean pan=new PanBean();
            pan.setUuid(doc.get(("id")));
            pan.setType(doc.get("type"));
            pan.setSize(doc.get("size"));
            String name=doc.get("name");
            pan.setName2(name);
            if(name!=null){
                TokenStream tokenStream = analyzer.tokenStream("name", new StringReader(name));
                String hName=highlighter.getBestFragment(tokenStream, name);
                if(StringUtil.isEmpty(hName)){
                    pan.setName(doc.get("name"));
                }else{
                    pan.setName(hName);
                }
            }
            panList.add(pan);
        }
        return panList;
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            reader.close();
        }
        return null;
    }
    /**
     * 模糊查询
     * @param q 参数
     * @param n 查询个数
     * @return
     * @throws Exception
     */
    public List<PanBean> searchMohuPan(String q,int n)throws Exception{
        dir=FSDirectory.open(Paths.get(LUCENE_PATH));
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher is=new IndexSearcher(reader);
        Analyzer analyzer = null;
        try {   
        analyzer=new StandardAnalyzer();
        Query parser=new FuzzyQuery(new Term("name",q+"~"));
        //Query query=parser.parse(q);
        TopDocs hits=is.search(parser, n); // 查询n条
        QueryScorer scorer=new QueryScorer(parser);  
        Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);  
        SimpleHTMLFormatter simpleHTMLFormatter=new SimpleHTMLFormatter("<b><font color='red'>","</font></b>");
        Highlighter highlighter=new Highlighter(simpleHTMLFormatter, scorer);
        highlighter.setTextFragmenter(fragmenter);  
        List<PanBean> panList=new LinkedList<PanBean>();
        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            PanBean pan=new PanBean();
            pan.setUuid(doc.get(("id")));
            String name=doc.get("name");
            pan.setType(doc.get("type"));
            pan.setSize(doc.get("size"));
            //pan.setClick(Integer.valueOf(doc.get("click")));
            pan.setName2(name);
            if(name!=null){
                TokenStream tokenStream = analyzer.tokenStream("name", new StringReader(name));
                String hName=highlighter.getBestFragment(tokenStream, name);
                if(StringUtil.isEmpty(hName)){
                    pan.setName(doc.get("name"));
                }else{
                    pan.setName(hName);
                }
                }
                panList.add(pan);
            }
            return panList;

        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            analyzer.close();
            reader.close();
        }
        return null;
    } 
    /**
     * 查询相关资源 不用html包装
     * @param q 参数
     * @param n 查询个数
     * @return
     * @throws Exception
     */
    public List<PanBean> searchRelatedPan(String q,int n)throws Exception{
        dir=FSDirectory.open(Paths.get(LUCENE_PATH));
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher is=new IndexSearcher(reader);
        Analyzer analyzer = null;
        try {
        analyzer=new StandardAnalyzer();
        QueryParser parser=new QueryParser("name",analyzer);
        Query query=parser.parse(q);
        TopDocs hits=is.search(query, n); // 查询n条
    //  QueryScorer scorer=new QueryScorer(query);  
        //Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);  
        List<PanBean> panList=new LinkedList<PanBean>();
        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            PanBean pan=new PanBean();
            pan.setUuid(doc.get(("id")));
            String name=doc.get("name");
            //pan.setName2(name);
            pan.setName(name);
            pan.setType(doc.get("type"));
            panList.add(pan);
        }
        return panList;
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            analyzer.close();
            reader.close();
        }
        return null;
    } 
    /**
     * 精确查找
     * @param q
     * @param n
     * @return
     * @throws Exception
     */
    public List<PanBean> searchPanByType(String q,int n)throws Exception{
        dir=FSDirectory.open(Paths.get(LUCENE_PATH));
        IndexReader reader = DirectoryReader.open(dir);
        IndexSearcher is=new IndexSearcher(reader);
        try {

        Query query=new TermQuery(new Term("type",q)); 
        TopDocs hits=is.search(query, n); // 查询n条
        List<PanBean> panList=new LinkedList<PanBean>();
        for(ScoreDoc scoreDoc:hits.scoreDocs){
            Document doc=is.doc(scoreDoc.doc);
            PanBean pan=new PanBean();
            pan.setUuid(doc.get(("id")));
            pan.setType(doc.get("type"));
            pan.setSize(doc.get("size"));
            //pan.setClick(GetRandom.getRandomInt(235, 879));
            String name=doc.get("name");
            pan.setName(name);
            panList.add(pan);
        }
        return panList;
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            reader.close();
        }
        return null;
    }
    public static void main(String[] args) throws Exception {
        Long start =System.currentTimeMillis();
        System.out.println(new PanIndex().searchPanByType("压缩包",100).size());
        Long end = System.currentTimeMillis();
        System.out.println(end-start);
    } 
}

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

lucene多条件搜索时or与and问题 lucene
2013-06-08 08:23

回答 3 已采纳 should戴表两个字段中必须有一个..must是必须都存在...你看看大小写啥的..有可能建索引的时候全都小写了
java lucene的搜索和翻页效率？ java lucene
2018-05-09 07:26

回答 3 已采纳检索分页本来就很慢,你没觉得百度只有前几页的数据有效，后几页的数据基本就没用或者和前几页很一样
Lucene 2.4 搜索结果为空 lucene
2009-07-08 11:21

回答 1 已采纳这是分词问题,你建立索引时用的是StandardAnalyzer分词器,这是个标准分词器,把一个单词或一个汉字当成一个索引,估计你的文件名"1.txt","2.txt","abc.txt"都被分解成一
ElasticSearch 之文本搜索
2022-08-02 23:00

Kuo-Teng的博客 1. 作为一款搜索引擎框架，文本搜索...2. ES在文本索引的建立和搜索过程中依赖两大组件，即Lucene和分析器。 3. Lucene负责进行倒排索引的物理构建，分析器负责在建立倒排索引前和搜索前对文本进行分词和语法处理。...
学习lucene建立检索和搜索过程中遇到的错误 lucene
2014-04-24 17:52

回答 2 已采纳 Query query = parser.parse("document.txt"); 用全名称来搜，或者Query query = parser.parse("document*"); 因为St
C# Lucene.Net对搜索结果添加超链接 c# lucene
2015-08-24 08:57

回答 1 已采纳运行你的程序，在浏览器中点查看源代码贴出对应的代码，看看什么问题
keyword和text能一起搜索吗？ elasticsearch lucene 中文分词全文检索搜索引擎
2020-05-21 23:43

回答 2 已采纳可以这样写： ``` POST YOUR_INDEX/_search { "query": { "bool": { "must": [ {
Lucene学习总结三
2015-11-11 14:55

DonelleYang技术博客的博客前两篇，讲到了lucene的一些用法，这一篇，我们继续lucene的其他... 原始记录表：存放的是原始记录信息，Lucene为存入的内容分配一个唯一的编号词汇表：存放的是经过分词器拆分出来的词汇和该词汇在原始记录表中的
lucene+springboot+vue查询接口怎么编写 lucene spring boot vue.js
2022-11-27 15:54

回答 1 已采纳你看下这篇博客吧, 应该有用👉 ：Lucene+springboot 实现一个简单的搜索
关于java搜索引擎lucene为数据库做索引的一点不解？ lucene
2009-07-24 09:37

回答 1 已采纳利用lucene之类的搜索引擎达到的效果和数据库查询优势是什么啊 lucene 比数据库查询要快. 数据库查询搜索相关文本只能用 like ,like 不用使用索引,全文索引慢.
关于lucene.net站内搜索的简单问题
2016-05-06 06:08

回答 1 已采纳是中文么，中文需要分词。参考：http://www.cnblogs.com/lhj588/archive/2013/02/06/2900937.html
2023-02-10 - 5 文本搜索
2023-02-11 13:04

@Autowire的博客 ES在文本索引的建立和搜索过程中依赖两大组件，即Lucene和分析器。其中，Lucene负责进行倒排索引的物理构建分析器负责在建立倒排索引前和搜索前对文本进行分词和语法处理。本节将文本的搜索功能拆分成索引建立过程和...
Elasticsearch -- 学习笔记
2021-11-27 14:42

丑基地的博客 Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的 RESTful API 来隐藏Lucene的复杂性，从而让全文搜索变得简单。 1.1 Elasticsearch 安装 1.1 下载软件...
Solr——企业级搜索应用服务器
2024-03-16 21:16

wpj130的博客概念介绍：文档：document是lucene进行索引创建以及搜索的基本单元，我们要把数据添加到Lucene的索引库中，数据结构就是document，如果我从Lucene的索引库中进行数据的搜索，搜索出来的结果的数据结构也...
ElasticSearch 基础（四）之常用 API 测试
2023-02-28 18:41

云三木的博客本文示例以 Elastic...还有一点是关于翻译的问题，ES 的中文版版本太低，我们常用的还是英文版，谷歌的翻译功能又不可用，想要翻译成中文可以使用 Edge 浏览器。DownGitGitHub ES 8.6 文档地址（也可选择其他版本）
没有解决我的问题, 去提问

悬赏问题

¥15 DS18B20内部ADC模数转换器
¥15 做个有关计算的小程序
¥15 MPI读取tif文件无法正常给各进程分配路径
¥15 如何用MATLAB实现以下三个公式（有相互嵌套）
¥30 关于#算法#的问题：运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题求各位帮我解答一下
¥15 setInterval 页面闪烁，怎么解决
¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动

码龄粉丝数原力等级 --

lucene5.4 中文单字搜索命中为0

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

lucene5.4 中文单字搜索命中为0

2条回答 默认 最新

悬赏问题

2条回答默认最新