2 wty19 wty19 于 2014.07.23 15:58 提问

lucene4.9 中文分词例子 失败

代码是这样的

    Directory directory = new RAMDirectory();
CharArraySet c = new  CharArraySet(Version.LUCENE_4_9, 1, true);
        c.add("#");
        IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_4_9,new SmartChineseAnalyzer(Version.LUCENE_4_9,c));

        IndexWriter indexWriter = new IndexWriter(directory,conf);
        Document doc=new Document();
        doc.add(new StringField("keyword","青菜#土豆#牛肉" ,Field.Store.YES ));
        doc.add(new StringField("id","1aaa" ,Field.Store.YES));
        indexWriter.addDocument(doc);  
        indexWriter.close();
Term term = new Term("keyword", "土豆");   
        AtomicReader atomicReader = SlowCompositeReaderWrapper.wrap(DirectoryReader.open(directory));
        IndexSearcher searcher = new IndexSearcher(atomicReader);
        TopDocs tdoc = searcher.search(new TermQuery(term), 10);
        System.out.println(tdoc.totalHits);
        for(ScoreDoc s : tdoc.scoreDocs){
            Document firstHit =  searcher.doc(s.doc);
           System.out.println(firstHit.getField("id").stringValue());
        }

但是搜!不!到!,只有 Term = "青菜#土豆#牛肉" 才能全部收到。那个SmartChineseAnalyzer 我看文档,传入c 是stop标签,难道我理解错了?求解

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
ICTCLAS分词器与Lucene4.9的结合
基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能,新增中英文停用词库,直接导入即可使用。
中文分词+全文索引例子
中文分词+全文索引例子中文分词+全文索引例子中文分词+全文索引例子中文分词+全文索引例子中文分词+全文索引例子中文分词+全文索引例子
中文分词组件带例子~~~~~~~~
中文分词组件带例子,中文分词组件带例子,中文分词组件带例子,中文分词组件带例子,中文分词组件带例子,
java中文分词实例
导言:本例用于中文的切割分词 需要导入jar包:import java.io.IOException; import java.io.StringReader; import org.wltea.analyzer.core.IKSegmenter; import org.wltea.analyzer.core.Lexeme; public class fenci { public static
一个使用中文分词的完整Demo
本文将首先将介绍如何在ES中使用中文分词器IK,然后对比一下IK分词器和默认的standard分词器的差别,最后给出一个Java访问ES的demo 1,安装中文分词器。 下载与ES版本相对应的IK版本。IK下载以及IK和ES版本对应关系见:https://github.com/medcl/elasticsearch-analysis-ik解压下载的zip文件,进入解压文件的根目
中文分词比较困难的句子
中文分词比较困难,有挑战的短语和句子
中文分词歧义切分:严守一把手机关了
微博上看到白硕老师贴了一个:“一句话证明你搞过语言学” 的帖子 觉得很有意思,下面回帖的很多都是国内NLP界的人士。很多歧义切分、或者语义成分复杂的case非常有趣, 这些case能用来检测中文分词和语义理解的准确度。 整理了一些存在歧义的词条,放在本帖内: 严守一把手机关了  ---- 注:这是黄萱菁老师常举的例子,从Ngram的角度看,前后两个字能有多重组合:“严守、严守一、一
python NLTK、中文分词
http://blog.csdn.net/huyoo/article/details/12188573 http://www.zhihu.com/question/19842722 https://github.com/fxsjy/jieba http://ictclas.org
lucene4.9全包
lucene4.9全包
一个隐马尔科夫模型的应用实例:中文分词
一个隐马尔科夫模型的应用实例:中文分词