部分数据在获取时有全角半角的问题,尤其是英文字母,底层所有数据的清洗工作量太大,且涉及数据种类多,字段多。
所以想从检索方面下手,标点在检索时是可以直接忽略的,不知道有没有忽略全角半角的功能。
ElasticSearch如何设置某个字段被检索时忽略全角半角格式
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
- Leodong. 2023-03-13 11:35关注
ElasticSearch提供了一个字符过滤器(Character Filter)叫做"normalize_charmap",它可以在检索时将指定字符映射成其他字符,从而实现忽略全角半角格式的功能。
具体步骤如下:
1.在创建索引时,在分析器中指定字符过滤器(normalize_charmap)。
例如:PUT /my_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "type": "custom", "tokenizer": "standard", "char_filter": [ "my_char_filter" ] } }, "char_filter": { "my_char_filter": { "type": "mapping", "mappings": [ "A=>A", "B=>B", "0=>0", "1=>1", ... ] } } } }, "mappings": { "properties": { "my_field": { "type": "text", "analyzer": "my_analyzer" } } } }
2.搜索时,使用相同的分析器进行分词和字符过滤。
例如:GET /my_index/_search { "query": { "match": { "my_field": { "query": "abc123", "analyzer": "my_analyzer" } } } }
在上面的例子中,将全角的大写字母和数字映射成对应的半角字符,从而在搜索时忽略全角半角格式的差异。
需要注意的是,使用字符过滤器会增加索引和搜索的开销,因此需要根据实际情况进行权衡。
以上回答如果对您有用,望采纳~谢谢
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 安装CentOS6时卡住
- ¥20 c语言写的8051单片机存储器mt29的模块程序
- ¥60 求直线方程 使平面上n个点在直线同侧并且距离总和最小
- ¥50 java算法,给定试题的难度数量(简单,普通,困难),和试题类型数量(单选,多选,判断),以及题库中各种类型的题有多少道,求能否随机抽题。
- ¥50 rk3588板端推理
- ¥250 opencv怎么去掉 数字0中间的斜杠。
- ¥15 这种情况的伯德图和奈奎斯特曲线怎么分析?
- ¥250 paddleocr带斜线的0很容易识别成9
- ¥15 电子档案元素采集(tiff及PDF扫描图片)
- ¥15 flink-sql-connector-rabbitmq使用