lucene4.9 中文分词例子失败

代码是这样的

    Directory directory = new RAMDirectory();
CharArraySet c = new  CharArraySet(Version.LUCENE_4_9, 1, true);
        c.add("#");
        IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_4_9,new SmartChineseAnalyzer(Version.LUCENE_4_9,c));

        IndexWriter indexWriter = new IndexWriter(directory,conf);
        Document doc=new Document();
        doc.add(new StringField("keyword","青菜#土豆#牛肉" ,Field.Store.YES ));
        doc.add(new StringField("id","1aaa" ,Field.Store.YES));
        indexWriter.addDocument(doc);  
        indexWriter.close();
Term term = new Term("keyword", "土豆");   
        AtomicReader atomicReader = SlowCompositeReaderWrapper.wrap(DirectoryReader.open(directory));
        IndexSearcher searcher = new IndexSearcher(atomicReader);
        TopDocs tdoc = searcher.search(new TermQuery(term), 10);
        System.out.println(tdoc.totalHits);
        for(ScoreDoc s : tdoc.scoreDocs){
            Document firstHit =  searcher.doc(s.doc);
           System.out.println(firstHit.getField("id").stringValue());
        }

但是搜！不！到！，只有 Term = "青菜#土豆#牛肉" 才能全部收到。那个SmartChineseAnalyzer 我看文档，传入c 是stop标签，难道我理解错了？求解

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ChatGPTᴼᴾᴱᴺᴬᴵ 2023-02-26 11:33
关注
该回答引用ChatGPT

根据你提供的代码，索引文档中的 "keyword" 字段内容为 "青菜#土豆#牛肉"，但是你搜索的时候却指定搜索 "土豆" 这个词条，这个词条在 "keyword" 字段中不存在，因此搜索结果为0。

如果你想要搜索到包含 "土豆" 这个词的文档，可以将 "keyword" 字段的值改为 "青菜#土豆#牛肉"。此时，当你搜索 "土豆" 的时候，应该能够搜索到包含 "土豆" 的文档。

另外，你在创建 SmartChineseAnalyzer 实例的时候，传入了一个 CharArraySet 对象作为参数。CharArraySet 中包含了一个 # 字符，这个字符会被 SmartChineseAnalyzer 作为停用词来过滤掉。因此，在你的例子中，"青菜#土豆#牛肉" 这个词条会被分成三个词："青菜"、"土豆" 和 "牛肉"。如果你想保留 # 字符作为分隔符，可以将 CharArraySet 对象的第三个参数设为 false，即：

CharArraySet c = new CharArraySet(Version.LUCENE_4_9, 1, false); c.add("#"); IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_4_9, new SmartChineseAnalyzer(Version.LUCENE_4_9, c));

这样做的话，"青菜#土豆#牛肉" 就会被作为一个整体进行分词。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

lucene不分词如果实现模糊查询 lucene
2013-09-20 10:06

回答 1 已采纳查询用* ，还要看你是什么版本
lucene5.4 中文单字搜索命中为0 lucene
2017-05-20 13:36

回答 2 已采纳给你看我做百度网盘的时候用到lucene做的工具类， ``` /** * 索引类 * @author user * */ public class PanIndex {
lucene如何实现关键词的完全匹配 lucene sql
2016-07-25 07:49

回答 1 已采纳在stack overflow找到了答案，给关键字加上双引号即可。 ``` query.parse("\""+keyword+"\""); ``` stack overflow答案地址：
Lucene 4.9 学习心得（一）
2014-08-14 21:30

sivolin的博客 Lucene 是一个全文本搜索引擎，
lucene分词会不会增大索引文件 lucene
2013-10-29 23:56

回答 3 已采纳切词越细切的词越多索也就越大有影响。
Lucene索引和检索中文文件的问题 lucene
2013-04-16 21:58

回答 3 已采纳 SearcherUtil 的索引目录错了 directory = FSDirectory.open(new File("F:/Lucene/test/indexDir1.2"));
java lucene的搜索和翻页效率？ java lucene
2018-05-09 07:26

回答 3 已采纳检索分页本来就很慢,你没觉得百度只有前几页的数据有效，后几页的数据基本就没用或者和前几页很一样
solr4.9之配置中文分词smartcn
2015-05-26 16:20

xiangbq的博客 solr4.9之配置中文分词smartcn 分类： solr2014-07-18 16:04 574人阅读评论(0) 收藏举报 solr4.3默认的分词器是一元分词器，这个本来就是对英文进行分词的，英文大部分就是典型的根据空格进行分
学习lucene建立检索和搜索过程中遇到的错误 lucene
2014-04-24 17:52

回答 2 已采纳 Query query = parser.parse("document.txt"); 用全名称来搜，或者Query query = parser.parse("document*"); 因为St
关于Lucene分词,我想过做一个小的Lucene分词...结合paoding分词 lucene
2009-08-22 09:22

回答 3 已采纳 compass仅仅是是一个框架，跟lucene是没有关系的，如果想是想上面的算法，要修改lucene的源代码，自己写一个filter类，在过滤的时候碰到大写字母分词就是了，这个需要稍微了解一下luce
lucene+springboot+vue查询接口怎么编写 lucene spring boot vue.js
2022-11-27 15:54

回答 1 已采纳你看下这篇博客吧, 应该有用👉 ：Lucene+springboot 实现一个简单的搜索
lucene原理及java实现
2019-07-02 14:38

程序员大航子的博客转自：http://blog.csdn.net/liuhaiabc/article/details/52346493一、Lucene是什...
Lucene的Highlighter如何才能将不分词直接索引的字段加高亮？ lucene
2010-11-28 17:34

回答 5 已采纳 [quote] 不知道这算不算停用词了，比如说我输入标题（歌曲名）是“泳儿 - 小蛮腰”，最后分词得到的结果只有“泳”“蛮腰”，而“儿”“小”却没有分出来。所以最后高亮的结果是泳儿 - 小蛮腰。但我
Lucene教程
2019-11-23 18:01

跟攀博学Java编程的博客 1 Lucene入门视频代码地址：https://blog.csdn.net/weixin_44062339/article/details/98935861 1.1 Lucene是什么？ Lucene是apache下的一个开放源代码的全文检索引擎工具包。Lucene的目的是为软件开发人员提供一个...
lucene
2017-10-26 11:38

wel1的博客 Lucene是apache的一个项目，是一个开源的全文检索引擎工具包，不是完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。优点是：1，独立于应用平台；2，分块索引，...
没有解决我的问题, 去提问

悬赏问题

¥20 C# TCP服务端，客户端退出后，不断有数据进来
¥15 HLs设计手写数字识别程序编译通不过
¥15 Stata外部命令安装问题求帮助！
¥15 从键盘随机输入A-H中的一串字符串，用七段数码管方法进行绘制。提交代码及运行截图。
¥15 TYPCE母转母，插入认方向
¥15 如何用python向钉钉机器人发送可以放大的图片？
¥15 matlab（相关搜索：紧聚焦）
¥15 基于51单片机的厨房煤气泄露检测报警系统设计
¥15 路易威登官网里边的参数逆向
¥15 Arduino无法同时连接多个hx711模块，如何解决？

lucene4.9 中文分词例子 失败

1条回答 默认 最新

悬赏问题

lucene4.9 中文分词例子失败

1条回答默认最新