部分数据在获取时有全角半角的问题,尤其是英文字母,底层所有数据的清洗工作量太大,且涉及数据种类多,字段多。
所以想从检索方面下手,标点在检索时是可以直接忽略的,不知道有没有忽略全角半角的功能。
ElasticSearch如何设置某个字段被检索时忽略全角半角格式
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
- Leodong. 2023-03-13 11:35关注
ElasticSearch提供了一个字符过滤器(Character Filter)叫做"normalize_charmap",它可以在检索时将指定字符映射成其他字符,从而实现忽略全角半角格式的功能。
具体步骤如下:
1.在创建索引时,在分析器中指定字符过滤器(normalize_charmap)。
例如:PUT /my_index { "settings": { "analysis": { "analyzer": { "my_analyzer": { "type": "custom", "tokenizer": "standard", "char_filter": [ "my_char_filter" ] } }, "char_filter": { "my_char_filter": { "type": "mapping", "mappings": [ "A=>A", "B=>B", "0=>0", "1=>1", ... ] } } } }, "mappings": { "properties": { "my_field": { "type": "text", "analyzer": "my_analyzer" } } } }
2.搜索时,使用相同的分析器进行分词和字符过滤。
例如:GET /my_index/_search { "query": { "match": { "my_field": { "query": "abc123", "analyzer": "my_analyzer" } } } }
在上面的例子中,将全角的大写字母和数字映射成对应的半角字符,从而在搜索时忽略全角半角格式的差异。
需要注意的是,使用字符过滤器会增加索引和搜索的开销,因此需要根据实际情况进行权衡。
以上回答如果对您有用,望采纳~谢谢
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥20 java在应用程序里获取不到扬声器设备
- ¥15 echarts动画效果的问题,请帮我添加一个动画。不要机器人回答。
- ¥60 许可证msc licensing软件报错显示已有相同版本软件,但是下一步显示无法读取日志目录。
- ¥15 Attention is all you need 的代码运行
- ¥15 一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗
- ¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事:
- ¥15 前置放大电路与功率放大电路相连放大倍数出现问题
- ¥30 关于<main>标签页面跳转的问题
- ¥80 部署运行web自动化项目
- ¥15 腾讯云如何建立同一个项目中物模型之间的联系