lucene分词会不会增大索引文件

我知道lucene可以分词索引和不分词索引。我想知道是哪个占用的空间会比较大?非常感谢。目前测试的结果是不分词的结果会小一点。不知道真的是不是这样。

3个回答

切词越细 切的词越多 索也就越大 有影响。

我没有仔细比较过,但是我认为做分词与不分词(应该是中文吧)更关键的要素是搜索的准确性(按词索引和按字索引),分词的结果会让搜索的精度提高,至于索引文件的大小,我没有测试过,应该不会有大的影响吧。

分词越细,索引文件越大。因为越细的话,lucene的term越多。想了解下lucene,可以看看《Lucene 原理与代码分析完整版.pdf》

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问