Lucene中的highlighter.getBestFragment 取值为空

有一个内容较多的txt，当搜索的关键词在txt前面一些，highlighter.getBestFragment(analyzer, "content", document.get("content"));就可以取得内容，但是当搜索的关键词在txt中的位置在后面时，此时highlighter.getBestFragment(analyzer, "content", document.get("content"));的内容就为空了，这是什么原因呢，还有不管highlighter.getBestFragment(analyzer, "content", document.get("content"));是不是为空，显示结果都是查询到了数据，就是提取关键词附近的段落有问题。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
你知我知皆知 2024-08-04 04:43
关注
以下回答参考 皆我百晓生、券券喵儿 等免费微信小程序相关内容作答，并由本人整理回复。

这个问题是由于Lucene的Highlighter实现方式导致的。在Lucene中，Highlighter是一个非常复杂的类，它负责根据用户输入的关键词从文档中提取出相关的片段，并将其展示出来。如果用户的搜索词位于文本的中间或者末尾，那么提取出来的片段可能会比较短，这可能会影响用户的阅读体验。

此外，Highlighter的getBestFragment方法会优先考虑那些与当前搜索词最接近的片段。如果当前搜索词正好位于文本的开始或结束位置，那么这个方法就会返回一个空字符串，因为没有可以匹配的片段。

如果你想确保你的Highlighter总是能够找到匹配的片段，你可以尝试以下几种方法：

将高亮器设置为true：在创建Highlighter对象时，将highlight属性设为true。这样，Lucene会在搜索时自动使用Highlighting来增强搜索效果。
优化你的搜索逻辑：如果你的搜索逻辑过于复杂，可能会导致Lucene无法正确地定位到正确的片段。你可以在搜索之前先对文本进行预处理，例如去除停用词、分词等操作。
使用全文搜索引擎：如果以上两种方法都无法解决问题，那么你可能需要考虑使用一种更强大的全文搜索引擎，比如Elasticsearch或Solr。

以下是一些关于如何使用Highlighter和全文搜索引擎的示例代码：

Document doc = new Document(); doc.add(new TextField("content", txt, Field.Store.YES)); Highlighter highlighter = Highlighter.create(doc); String[] tokens = txt.split("\\W+"); for (int i = 0; i < tokens.length - 5; i++) { String query = tokens[i]; String[] fragments = highlighter.getBestFragments(query, analyzer, null, true); for (String fragment : fragments) { System.out.println(fragment); } }

这段代码首先创建了一个包含关键字的文档，然后使用Lucene的Highlighter来提取这些片段。注意，我们在这里只提取前五个片段，实际上Lucene可以根据需要提取更多的片段。

对于全文搜索引擎，你需要安装相应的库（如Elasticsearch）并按照官方文档进行配置和使用。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Lucene高亮highlighter.getBestFragment 取值为null
2019-09-26 07:33

djhzew3057的博客 public static String highConvert(String field,String value,Query query){ String highStr = null; try { Scorer scorer = new QueryScorer(query);... Highlighter highlighter = ...
Lucene系列（三）查询及高亮
2018-04-05 02:16

weixin_33800593的博客 Lucene系列（一）快速入门 Lucene系列（二）luke使用及索引文档的基本操作 Lucene系列（三）查询及高亮 <font color="#0066CC">一准备</font> <font color="#00CC00">创建项目并添加Maven依赖&lt...
lucene搜索引擎
2018-12-12 10:59

f_1314520的博客 // org.apache.lucene.store.LockObtainFailedException: Lock held by this virtual machine:indexWriter是单例的、线程安全的，不允许打开多个。 IndexWriter indexWriter = getIndexWriter(); System.out....
Lucene(1):Springboot整合全文检索引擎Lucene常规入门附源码
2024-08-16 15:33

后会无期77的博客本章代码已分享至Gitee:Lucene是一个开源的全文搜索引擎工具包，它提供了用于创建、索引和搜索大量文本的API和工具。Lucene最初是由Doug Cutting于1999年创建，目的是提供一个高效、可扩展的搜索引擎。Lucene的主要...
Lucene笔记
2017-03-07 23:10

魅力降不住美丽的博客全文检索是计算机程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找，类似于通过字典的检索字表查字的过程。二、Lucece全文检索和...
Lucene初探——基于Lucene 6.6.2
2018-03-06 00:59

Jitwxs的博客一、Lucene简介顺序扫描法全文检索二、全文检索流程 2.1 索引过程 2.1.1 获得原始文档 2.1.2 创建文档对象 2.1.3 分析文档 2.1.4 创建索引 2.2 搜索过程 2.2.1 用户搜索 2.2.2 创建查询 2.2.3执行查询 ...
LUCENE
2018-11-24 14:31

Sunny_god的博客一、什么是Lucene 二、Lucece全文检索和数据库检索的区别三、Lucene的原理四、Lucene开发原理（索引库与数据库同步）五、开发步骤六、Lucene优化正文师兄推荐我学习Lucene这门技术，用了两天时间，大概整理了...
Lucene 3.X 自定义排序
2013-09-18 16:26

douglas8287的博客 Lucene 3.X 自定义排序发表于 2012 年 10 月 26 日这是摘录：原文请看http://www.oschina.net/code/snippet_54100_6338 /* 加入几家店作为索引数据 */ 058 059 ...
全文检索Lucene（三）----查询，分词器，排序，过滤，高亮
2017-07-12 21:12

Coding Diary的博客 Lucene查询：查询出所有关键词查询范围查询通配符查询模糊查询短语查询布尔查询QueryParser与MultiFieldQueryParser的区别 QueryParser：只在一个字段中查询 MultiFieldQueryParser：可以在多个字段...
lucene
2016-02-25 15:51

qdqht2009的博客 lucene的简单使用 public class Testlucene { @Test public void createIndex() throws IOException { Directory directory=FSDirectory.open(new File("indexDir/")); Analyzer analyzer=new IKAnalyzer(); ...
没有解决我的问题, 去提问

Lucene中的highlighter.getBestFragment 取值为空

1条回答 默认 最新

1条回答默认最新