lucene设置Field为un_tokenized时怎么匹配，答对者送wave了

有一段文本，有名称mc与内容nr两段。nr好说，分词不储存。
mc格式为“中国>>上海>>普陀”这种形式，为了保证其精确性，在检索时不会被拆分，所以不设置分词，设置Field.Index.UN_TOKENIZED。
那么问题是，在检索名称时，由于mc被认为是一个最小的单位，那么该怎么查询。
这里不知道谁有个好的思路?

其实我想问的问题是如何在搜索引擎中使用精确搜索。lucene中将文本进行分词，再来进行匹配。但是有一些内容（如上面的mc)就要求十分准确，甚至不管其中有没有特殊符号或者用户输入的关键字那不能识别出来等，都需要查询出来。
所以在设置时是将Field.Index为UN_TOKENIZED，那么在存储时就会将这段文本做为一个term，如上文中“中国>>上海>>普陀”，这个时候除了使用"中国>>上海>>普陀"本身，不知道有其它办法进行匹配。如用户在只输出“上海”的情形下，怎么找到这段文本。
[color=red]
大家谁有思路都可以给个参考啊，最后还有4个wave邀请送给大家！ :D :D :D [/color]

[b]问题补充：[/b]
你说的有点意思了。但是回到了最开始的问题了。
你推荐了一个前缀匹配查询，当然，我一开始的设想是通配符查询。
但是存在同样的一个问题就是，如果存在以下两个词条
中国>>上海>>普陀
中国>>上海上>>普陀
那么，当用户输入“上海”时，希望能够匹配“中国>>上海>>普陀”
而不是那个“中国>>上海上>>普陀”的地方
[b]问题补充：[/b]
关于分词，你可能误解我的意思，我当然不担心保存在索引中的数据会发生变化，担心的是，分词可能会导致查询的准确性不能达到100%，对于有些文本不会追求准确性的，但总有些要求很精准的。尤其是一些目录结构的，用户可能就是挑中能记忆的名称输入，但是系统总得查询出来与之相关的所有内容。
当然，如你所说，分词的效果取决于分析器的效果。我知道分词口号就是10%的设置能应用于90%的情况。这里的要求是不是有点太苛求了。
至于你所说的HitCollector，还没有看过，我先看看，再试下。
[b]问题补充：[/b]
哦，谢谢了，我先试试。
我要遵守承诺，发一个wave，你把你的邮箱留下吧。
帖子不关，等看看还有没有人来指导下。集思广益，看看有没有其它思路。
如果还有什么问题，我可能会直接发站内信麻烦你了。
[b]问题补充：[/b]
[quote]地区间用空格，然后用SimpleAnalyzer去解析， [/quote]
本来想用你的思路来试下，没想到遇到的第一个问题就是：
我现在的是
[code="java"]Analyzer analyzer = new PaodingAnalyzer();
IndexWriter indexWriter = new IndexWriter(indexFile, analyzer, true);[/code]
怎么能同时用SimpleAnalyzer呢
[b]问题补充：[/b]
SimpleAnalyzer的效果肯定是要不得的，因为在全文分词是会依据空格分成一句一句的。
而且在分词后，还是会出现匹配上问题
[b]问题补充：[/b]
嗯，经过测试，我确定HitCollector可以满足需求。
其实在昨天，我有了一个更简单的方案。因为数据全部存储在oracle中，因此可以使用oracle Text。
当然，oracle的分词效果好像并不好，不过对现有代码改动之类都比较小，并且也能够满足需求。
要谢谢两位的帮忙。
luckaway请留下您的邮箱。
[b]问题补充：[/b]
[quote]硬编码在Analyzer里 [/quote]
这样到是可以将中国>>上海>>普陀分得更加的准确。
其实，可能我没有说清。关键关不是在分词的准确上，而是要求查询匹配得准确要求非常高。你不可能指望那些可能念都不念不通的话会分成一个term的。
layer555说的HitCollector，就是实现这个目的，因为我希望那部分内容是进行不分词索引的，并且还要求用一种特别的规律进行查询出来。
[b]问题补充：[/b]
嗯，好的。
如果搜索上有问题，还会向你请教的。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

9条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
layer555 2009-11-25 16:33
关注
HitCollector很简单，它提供了一个collect方法，用于收集搜索结果，在这个时候你可以通过docId访问到数据的mc字段，然后最简单的办法就是你通过字符串split一下，然后逐个匹配，这样肯定是最精确的；至于怎么匹配合理，看情况做就是了。PrefixQuery的内部实现也不过就是通过字符串匹配做的，只不过与Lucene贴合的紧密，更高效而已。至于调用的话Searcher中有search方法是包含HitCollector的，试一下就知道了。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(8条)

报告相同问题？

关注问题

elasticsearch的match_phrase不能精准匹配到内容 elasticsearch lucene
2020-05-21 23:35

回答 1 已采纳 https://blog.csdn.net/camelcanoe/article/details/79544155
lucene如何实现关键词的完全匹配 lucene sql
2016-07-25 07:49

回答 1 已采纳在stack overflow找到了答案，给关键字加上双引号即可。 ``` query.parse("\""+keyword+"\""); ``` stack overflow答案地址：
lucene5.4 中文单字搜索命中为0 lucene
2017-05-20 13:36

回答 2 已采纳给你看我做百度网盘的时候用到lucene做的工具类， ``` /** * 索引类 * @author user * */ public class PanIndex {
lucene中TOKENIZED,UN_TOKENIZED 解釋
2018-08-09 12:00

weixin_34007879的博客 ,curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED)); 這些地方與舊版本有很大的區別。Field有兩個屬性可選：存儲和索引。通過存儲屬性你可以控制是否對這個Field進行存儲；通過索引屬性你可以控制是否對...
Elasticsearch-field_value_factor，缺少参数 elasticsearch python
2016-05-30 15:25

回答 2 已采纳 The problem was with the dumb AWS ES version 1.5.2. My solution: Create EC2 instance and deploy E
Zend_Search_Lucene帮助 lucene php
2009-08-08 01:41

回答 3 已采纳 I just ran some tests on my own search index, and the problem seems to be in the query itself and
lucene多条件搜索时or与and问题 lucene
2013-06-08 08:23

回答 3 已采纳 should戴表两个字段中必须有一个..must是必须都存在...你看看大小写啥的..有可能建索引的时候全都小写了
Lucene-article.rar_Article lucene_lucene
2022-09-19 14:21

标题"Lucene-article.rar_Article lucene_lucene"指出这是一个关于Lucene的资源包，可能是包含文章或者示例代码的压缩文件，重点在于Lucene的使用，适合初学者学习和交流。描述中提到的"LUCENE的一段全文检索代码...
lucene+springboot+vue查询接口怎么编写 lucene spring boot vue.js
2022-11-27 15:54

回答 1 已采纳你看下这篇博客吧, 应该有用👉 ：Lucene+springboot 实现一个简单的搜索
java lucene的搜索和翻页效率？ java lucene
2018-05-09 07:26

回答 3 已采纳检索分页本来就很慢,你没觉得百度只有前几页的数据有效，后几页的数据基本就没用或者和前几页很一样
Lucene 1.*版本和2.*版本的Field lucene
2009-06-25 16:11

回答 3 已采纳 Keyword，UnIndexed,UnStored,Text 这些是定义的一些统一的处理方式具体怎么处理的看后面的Field.Store.YES, Field.Index.UN_TOKEN
java.lang.NoSuchFieldError: LUCENE_7_0_0
2021-04-04 23:42

spencer_tseng的博客 ERROR StatusLogger No Log4j 2 configuration file found. Using default configuration (logging only errors to the console), or user programmatically provided ...59) org.apache.lucene lucene-core 8.5.1
elasticsearch启动或者lucene启动出现了java.lang.NoSuchFieldError: LUCENE_7_2_1异常
2019-12-09 17:39

qq_34412985的博客启动lucene查询时：java.lang.NoSuchFieldError: LUCENE_7_2_1 2 出现的原因：这是和pom.xml文件里lucene的依赖冲突了 3 解决的办法：可以删除lucene的依赖或者lucene的版本和elasticsearch的版本对应 4 ...
lucene排序、设置权重、优化、分布式搜索.pdf
2021-10-14 13:11

document.Add(new Field(FieldName, "name " + i, Field.Store.YES, Field.Index.UN_TOKENIZED)); writer.AddDocument(document); } } ``` 在上面的代码中，我们使用 IndexWriter 对象来对文档进行索引。 ...
lucene_3.6.1_API
2017-11-01 12:05

`Document`类代表一个待索引的文档，包含多个`Field`，每个Field都有类型，如TextField用于全文搜索，而StringField则不进行分词。搜索方面，`IndexSearcher`类是执行查询的主要接口，它可以执行各种类型的查询，...
没有解决我的问题, 去提问

悬赏问题

¥15 根据以下文字信息，做EA模型图
¥15 删除虚拟显示器驱动删除所有 Xorg 配置文件删除显示器缓存文件重启系统可是依旧无法退出虚拟显示器
¥15 vscode程序一直报同样的错，如何解决?
¥15 关于使用unity中遇到的问题
¥15 开放世界如何写线性关卡的用例(类似原神）
¥15 关于并联谐振电磁感应加热
¥60 请查询全国几个煤炭大省近十年的煤炭铁路及公路的货物周转量
¥15 请帮我看看我这道c语言题到底漏了哪种情况吧！
¥60 关机时蓝屏并显示KMODE_EXCEPTION_NOT_HANDLED，怎么修？
¥66 如何制作支付宝扫码跳转到发红包界面

lucene设置Field为un_tokenized时怎么匹配，答对者送wave了

9条回答 默认 最新

悬赏问题

9条回答默认最新