关于 Lucene3.3 特殊符号 (@#$%^&*) 无法索引问题

Lucene3.3 如题：比如说，创建一个字符串“test_java”的索引，但是用_test来搜索，是搜不出

这条索引记录的。请问，如何在创建索引的时候，把一些特殊符号 (@#$%^&*) 转化我想要的字符串，如空格等？听说是可以调

用分词器里面的方法过滤掉的。但是具体要怎么做？我看了很久的API，还是一头雾水。希望大家帮帮我。

测试代码：

package test;

import java.io.File;
import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.KeywordAnalyzer;
import org.apache.lucene.analysis.SimpleAnalyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.document.Field.Store;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;

public class Test {

private static final Version MACTH_VERSION = Version.LUCENE_33; // version
                                                                // number

public void testCreate() throws IOException {

    Analyzer LUCENE_ANALUZER = new StandardAnalyzer(MACTH_VERSION);

    File indexDir = new File("D:\\index");
    Directory dir = FSDirectory.open(indexDir);
    IndexWriterConfig iwc = new IndexWriterConfig(MACTH_VERSION,
            LUCENE_ANALUZER);
    // iwc.setOpenMode(IndexWriterConfig.OpenMode.CREATE); 创建索引时把历史索引删除
    IndexWriter indexWriter = new IndexWriter(dir, iwc);

    Document document = new Document();
    Field field = new Field("name", "java_Test", Store.YES, Index.ANALYZED);
    document.add(field);
    indexWriter.addDocument(document, LUCENE_ANALUZER);
    indexWriter.optimize();
    indexWriter.close(); // close IndexWriter
}

public void testSearch() throws Exception {
    File indexDir = new File("D:\\index");
    Directory dir = FSDirectory.open(indexDir);
    IndexSearcher indexSearcher = new IndexSearcher(dir);

    Term term = new Term("name", "_test");
    Query query = new TermQuery(term);

    TopDocs topDocs = indexSearcher.search(query, Integer.MAX_VALUE);
    int totalResults = topDocs.totalHits;
    System.out.println(totalResults);
    for (int i = 0; i < totalResults; i++) {
        ScoreDoc scoreDoc = topDocs.scoreDocs[i];
        int docSn = scoreDoc.doc;
        Document document = indexSearcher.doc(docSn);
        System.out.println(document.get("name"));

    }
    System.out.println(" ------------- ");
    indexSearcher.close();

}

@Test
public void testAnalyzer() throws Exception {


    String text = "test_java";
    Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_33);

    System.out.println("当前使用的分词器：" + analyzer.getClass());

    TokenStream tokenStream = analyzer.tokenStream("content",new StringReader(text));
    tokenStream.addAttribute(TermAttribute.class);

    while (tokenStream.incrementToken()) {
        TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);
        System.out.println(termAttribute.term());
    }
    tokenStream.end();
    tokenStream.close();
}

}

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Stefen_720 2011-11-12 09:19
关注
这问题，我也遇到了。楼主如果解决好了，请帮忙联系我。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Java领域搜索引擎开发：Lucene与Solr应用
2025-05-07 20:56

AI开发架构师的博客本文旨在为Java开发者提供关于Lucene和Solr搜索引擎技术的全面指南。搜索引擎基本原理和架构Lucene核心组件和API使用Solr的部署和配置实际项目中的最佳实践性能优化技巧文章采用由浅入深的结构，首先介绍基本概念，...
Lucene Field域,索引&搜索
2017-10-15 21:22

SyyFeng的博客 Field是文档中的域，包括Field名和Field值两部分，一个文档可以包括多个Field，Document只是Field的一个承载体，Field值即为要索引的内容，也是要搜索的内容。 l 是否分词(tokenized) 是：作分词处理，即将...
全文检索 Lucene
2021-02-04 14:30

费利普斯的博客全文检索 Lucene 网上学习黑马课程后，在原有笔记的基础上进行总结课程计划 lucene入门什么是lucene Lucene的作用使用场景优点和缺点 lucene应用索引流程搜索流程 field域的使用索引库维护分词器 ...
Lucene&ElasticSeach&Kafka
2021-11-21 21:18

coolwei-的博客 Lucene&ElasticSeach&Kafka Lucene&ElasticSeach 1 什么是全文检索 1.1 数据分类生活中的数据总体分为两种：结构化数据和非结构化数据。结构化数据：指具有固定格式或有限长度的数据，如数据库，...
索引数据压缩及查询优化——Lucene索引原理与性能调优
2023-09-24 01:44

光子AI的博客 Lucene 是 Apache 基金会的一个开源项目，是 Java 中一个用于全文搜索引擎开发的框架。它是一个高效、高质量的全文检索库，能够快速地处理海量的数据，并生成有价值的信息。lucene具有以下优点：高度可定制性：...
Lucene搜索引擎基础演示项目
2024-10-19 14:23

八位数花园的博客该项目涵盖了从创建索引、执行查询到更新和删除文档的整个搜索应用实现流程。对于希望理解和实践全文搜索库的开发者来说，LuceneDemo是理解Lucene基本概念和操作的起点。 1. Lucene搜索引擎介绍 ...
Lucene-3.0.1全文搜索引擎库深入剖析
2024-10-02 10:04

lanjieying的博客作为开源全文搜索引擎库，Lucene提供索引、搜索、分类、评分和排序功能，广泛应用于各类项目中。文章将详细介绍文档索引、分词器、分词过滤器、索引编写器、搜索器和查询解析器等核心组件及工作流程，并探讨基于TF-...
Lucene&Solr框架之第一篇
2019-10-20 17:40

不一样的花朵的博客用户将想要搜索的原始数据创建索引，索引内容存储在索引库（index）中。创建索引时不会改变原始文档的任何内容，只是将有用信息的拷贝重新组织成索引。假设有如下两个原始文档：【students . txt】：...
Lucene 的索引排序
2013-05-03 11:22

my_et的博客 Lucene 的索引排序是使用了倒排序原理。该结构及相应的生成算法如下：设有两篇文章1和2 文章1的内容为：Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为：He once lived in Shanghai. 1. ...
深入掌握全文检索引擎Lucene实战
2025-09-08 03:27

46497976464的博客 Lucene 是 Apache 基金会下的开源全文检索引擎库，广泛应用于搜索引擎、日志分析、大数据检索等领域。它不提供开箱即用的搜索引擎，而是为开发者提供了构建全文检索系统的底层 API，具有高度的灵活性与可扩展性。其...
没有解决我的问题, 去提问

关于 Lucene3.3 特殊符号 (@#$%^&*) 无法索引问题

1条回答 默认 最新

1条回答默认最新