elasticsearch堆叠关键词导致搜索结果失真，如何实现语义搜索

目前我在用elasticsearch 进行一个知识管理系统的搭建，现在遇到一个问题，在进行知识搜索时会因为关键词堆叠导致结果不准确，请问如何优化查询。
例如我搜索：程序员如何快速处理故障。
由于elasticsearch数据中部分文章中存在很多类似如下内容（目前采用结巴分词搜索，导致程序员命中率过高）：

示例文字：
程序员应该快速学习，程序员，程序员
程序员（英文Programmer）是从事程序开发、程序维护的基层工作人员。一般将程序员分为程序设计人员和程序编码人员，但两者的界限并不非常清楚。随着互联网的不断普及，网络上把男程序员称作“程序猿”，女程序员称作“程序媛”。

由于关键词“程序员”出现的频次过高，导致最终搜索的结果，更倾向于关键词“程序员”，而不是整句话，请问如何改进查询，实现真正的语义查询。有点类似搜索引擎的反关键词重复SEO。

搜索代码如下：

    query = {         
                    "size":Icount,
                    "query": {
                               "match": {
                                         fieldName: {
                                                     "query":queryString,
  #                                                   "cutoff_frequency": 0.015
                                                     "minimum_should_match": "98%"
                                                    },
                                          },
                              },
                 }

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

7条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CodeBytes 2023-02-26 08:44
关注
该回答引用ChatGPT

1、调整分词器
可以尝试使用不同的分词器来优化查询，例如使用基于语义的分词器，如中文分词器ansj、jieba-analysis等，或者使用更为严格的分词器，如IK Analyzer，这些分词器可以更准确地切分文本，避免关键词的重复出现。

2、调整搜索算法
可以使用更为复杂的搜索算法，如布尔搜索、短语搜索等，通过设置搜索算法的权重、距离等参数来调整搜索结果，避免关键词的重复出现对搜索结果的影响。

3、调整查询语句
可以在查询语句中加入其他条件，如过滤器，设置查询条件的匹配规则，如AND、OR等，避免仅仅依赖关键词的出现次数来确定搜索结果。

4、调整数据模型
可以考虑对数据模型进行调整，如使用更加规范的文本，避免重复的关键词出现，或者将关键词拆分为多个属性，减少关键词堆叠的可能性。

、、、、、、、、、、、、、、、、、、、、、、、、、、、、、
可以根据具体情况进行参考和修改：

1、修改查询语句，使用短语搜索

query = { "size":Icount, "query": { "match_phrase": { fieldName: { "query":queryString, "slop": 5 } } } }

这里使用了 match_phrase 查询，它会将搜索字符串作为一个整体来搜索，而不是分开匹配。通过设置 slop 参数，可以控制搜索短语中允许的词语间隔数，使得搜索结果更加准确。

2、调整分词器，使用基于语义的分词器

query = { "size":Icount, "query": { "match": { fieldName: { "query":queryString, "analyzer": "ik_smart" } } } }

这里使用了 IK Analyzer 分词器，它是一款基于中文语义的分词器，可以更加准确地切分文本，避免关键词的重复出现。使用 ik_smart 模式，可以更好地处理中文搜索。

3、调整数据模型，避免关键词重复出现
根据业务需求，可以调整数据模型，将关键词拆分为多个属性，避免关键词重复出现的情况，例如：

{ "title": "程序员如何快速处理故障", "description": "程序员应该快速学习，程序员，程序员", "content": "程序员（英文Programmer）是从事程序开发、程序维护的基层工作人员。一般将程序员分为程序设计人员和程序编码人员，但两者的界限并不非常清楚。随着互联网的不断普及，网络上把男程序员称作“程序猿”，女程序员称作“程序媛”。" }

然后可以在查询语句中指定搜索的字段，例如：

query = { "size":Icount, "query": { "multi_match": { "query": queryString, "fields": ["title", "description", "content"], "type": "cross_fields", "operator": "and", "minimum_should_match": "98%" } } }

这里使用了 multi_match 查询，指定了需要搜索的字段，通过设置 type 参数为 cross_fields，可以对多个字段进行匹配，通过设置 operator 参数为 and，可以将多个查询条件合并为一个，避免关键词重复出现的情况。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Java程序向elasticsearch服务器发出搜索请求 elasticsearch java javascript 全文检索搜索引擎
2020-09-22 21:01

回答 1 已采纳 https://blog.csdn.net/ROAOR1/article/details/88356225
Elasticsearch搜索结果过滤 elasticsearch php
2018-08-15 11:06

回答 2 已采纳 You can try with query_string or simple_query_string $params = [ 'index' => 'my_search',
ElasticSearch内容推荐实现 elasticsearch
2018-07-05 08:42

回答 1 已采纳 https://www.cnblogs.com/luckcs/articles/7052942.html
润乾报表CookBook与使用
2021-05-31 16:40

润乾软件的博客 1.16 报表工具访问 Webservice 1.17 报表工具访问 Ftp 1.18 报表工具访问 Cassandra 数据库 1.19 报表工具访问 ElasticSearch 1.20 报表工具访问 Kafka 1.21 报表工具访问 Informix 数据库 1.22 报表工具访问 Zip ...
IK 分词，当英文与数字混合搜索时，遇到 Elasticsearch 分词问题。 elasticsearch
2021-09-06 12:29

回答 5 已采纳 PUT /test_analyzer { "settings": { "analysis": { "analyzer": { "test_analyzer":
Elasticsearch。如何结合快速搜索实现以下原则？ elasticsearch php
2015-12-13 19:46

回答 1 已采纳 Autosuggest considerations Searchers expect autosuggest to be highly responsive. If any one of
Elasticsearch地理位置搜索不返回里程单位的结果 elasticsearch php
2016-10-19 13:09

回答 1 已采纳 You simply need to use the correct distance unit: m is for meters, and for miles you need to use m
前端面试八股文【很经典很全面字字珠玑】【建议收藏+关注】
2023-08-21 23:26

小码哥Lvan的博客 sessionStorage 的数据在浏览器关闭后自动删除表单控件，calendar、date、time、email、url、search 新的技术webworker, websocket, Geolocation Javascript 篇 1.浏览器加载文件(repaint/reflow) 浏览器加载页面...
架构问题：通过ElasticSearch搜索引擎查询到的数据有必要返回数据库吗 elasticsearch java
2021-09-27 12:03

回答 1 已采纳 MySQL开启binlog，以binlog同步的形式把数据同步到ES，举例搜索商品列表就把用到的数据都同步过去直接查ES，但是列表点进去的详情页就可以查MySQL，这样列表即使短时数据不一致其实问题也
使用Elasticsearch的Symfony Ajax搜索栏 ajax elasticsearch php symfony
2019-04-07 11:50

回答 1 已采纳 The finder of Elastichsearch is showing 10 results by default. If you want to change it you have t
ES查询不出预期结果 elasticsearch 全文检索大数据
2022-07-18 11:40

回答 2 已采纳因为这里的bool操作是对同一个嵌套文档进行查询，也就是要查询同一个文档下，满足price 1999和price 4999显然不存在，是同一个嵌套文档，而不是同一个goods_list，当你改为Obj
（十四：2020.08.28）CVPR 2014 追踪之论文纲要（译）
2020-08-28 20:57

花卷汤圆的博客 53.A Learning-to-Rank Approach for Image Color Enhancement 堆叠逐行自动编码器（SPAE）的人脸识别跨体式 54.Similarity Comparisons for Interactive Fine-Grained Categorization 更好的跟踪功能通过子空间约束...
Linux下安装elasticsearch-analysis-ik后es就启动不了了 elasticsearch
2022-07-14 22:34

回答 1 已采纳看日志你的服务并没有错误，先检查网络通畅，你使用局域网IP不一定网络就是可达的，也可能出现IP变动或IP冲突，你应该使用127.0.0.1回环地址测试本地9200端口，又或者netstat -aF |
【前端】前端面试题整理
2019-08-02 07:19

喜欢安静的程序猿的博客 js实现数组去重怎么实现? 一、前端编程前端面试题大本营 1. 你能描述一下渐进增强和优雅降级之间的不同吗? 答: 定义: 优雅降级（graceful degradation): 一开始就构建站点的完整...
前端面试题整理
2017-09-11 15:43

barnett_y的博客并且导致推迟到达服务器端和返回浏览器端的时间，我们称之为延迟。文件最小化/文件压缩即将需要传输的内容压缩后传输到客户端再解压，这样在网络上传输的数据量就会大幅减小。通常在服务器上的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月26日
展开全部

悬赏问题

¥15 下图接收小电路，谁知道原理
¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探

elasticsearch堆叠关键词导致搜索结果失真，如何实现语义搜索

7条回答 默认 最新

问题事件

悬赏问题

7条回答默认最新