关于#elasticsearch#的管道聚合问题，如何解决？

原需求是多个字段groupby 查询terms的字段和求和，目前采用的是管道聚合符合要求，但数据量大（几千万条数据）之后反而很慢，求解决思路

GET xxx-20240929/_search
{
  "size": 0,
  "timeout": "5m",
  "query": {
    "bool": {
      "should": [
        {
          "bool": {
            "must_not": [
              {
                "term": {
                  "a.country": {
                    "value": "中国"
                  }
                }
              }
            ]
          }
        },
        {
          "bool": {
            "must_not": [
              {
                "term": {
                  "b.country": {
                    "value": "中国"
                  }
                }
              }
            ]
          }
        }
      ],
      "must": [
        {
          "range": {
            "ts": {
              "gte": 1726290562000,
              "lte": 1726549762000
            }
          }
        }
      ]
    }
  },
  "sort": [
    {
      "ts": {
        "order": "desc"
      }
    }
  ],
  "track_total_hits": true,
  "aggregations": {
    "totalCount": {
      "cardinality": {
        "script": {
          "source": "doc['hg'].value+'__##__'+doc['kp'].value",
          "lang": "painless"
        }
      }
    },
    "NAME": {
      "terms": {
        "script": {
          "source": "doc['hg'].value+'__##__'+doc['kp'].value",
          "lang": "painless"
        },
        "size": 50,
        "min_doc_count": 1,
        "shard_min_doc_count": 0,
        "show_term_doc_count_error": false,
        "order": [
          {
            "glowEnd": "desc"
          },
          {
            "_key": "asc"
          }
        ]
      },
      "aggregations": {
        "bytesToClient": {
          "sum": {
            "field": "glow.bytes_toclient"
          }
        },
        "bytesToServer": {
          "sum": {
            "field": "glow.bytes_toserver"
          }
        },
        "glowAge": {
          "sum": {
            "field": "glow.age"
          }
        },
        "hgpt": {
          "terms": {
            "field": "hgpt",
            "size": 100,
            "min_doc_count": 1,
            "shard_min_doc_count": 0,
            "show_term_doc_count_error": false,
            "order": [
              {
                "_count": "desc"
              },
              {
                "_key": "asc"
              }
            ]
          }
        },
        "kppt": {
          "terms": {
            "field": "kppt",
            "size": 100,
            "min_doc_count": 1,
            "shard_min_doc_count": 0,
            "show_term_doc_count_error": false,
            "order": [
              {
                "_count": "desc"
              },
              {
                "_key": "asc"
              }
            ]
          }
        },
        "glowEnd": {
          "max": {
            "field": "glow.end"
          }
        },
        "glowStart": {
          "min": {
            "field": "glow.start"
          }
        },
        "topHits": {
          "top_hits": {
            "from": 0,
            "size": 1,
            "version": false,
            "seq_no_primary_term": false,
            "explain": false,
            "sort": [
              {
                "ts": {
                  "order": "desc"
                }
              }
            ]
          }
        },
        "pages": {
          "bucket_sort": {
            "sort": [],
            "from": 1,
            "size": 50,
            "gap_policy": "SKIP"
          }
        }
      }
    }
  }
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一轮明月照丘壑 2024-09-29 09:47
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

针对Elasticsearch管道聚合在处理大量数据时的性能问题，以下是几种可能的解决方案：

调整查询策略：你的查询中包含多个条件（包括应该包含和不包含某些值），可能需要进行优化。确保所有的过滤条件都是必要的，并考虑是否可以合并或简化它们。例如，你可以尝试使用bool查询的filter子句替换should子句中的term查询，以提高性能。此外，检查查询的逻辑是否正确实现了你想要的业务逻辑。如果逻辑上能够减少过滤的范围或缩小数据量，则可能会提高查询速度。
增加硬件资源：对于大量的数据处理，足够的内存和处理器资源是关键。如果你的服务器硬件资源有限，尝试升级服务器硬件或者使用云计算服务提供更高性能的计算资源。
调整聚合结构：如果你的聚合过于复杂或嵌套太多层级，这可能会影响性能。考虑简化你的聚合结构或者调整管道聚合的层级。可能可以通过重新设计数据结构或者优化查询来避免过度的聚合。同时，尽量减少不必要的聚合和计算操作。针对你的问题描述，可以考虑合并一些不必要的聚合或合并相关字段的聚合以减少计算量。
使用分页和分页参数：在你的聚合查询中使用了bucket_sort，它会涉及大量数据的排序操作。当数据量很大时，可能会导致性能问题。考虑使用分页参数（如from和size）来限制返回的数据量，以减少排序操作的负担。对于大量的数据聚合，尽量限制返回的结果数量。如果不需要所有的结果，可以使用分页来限制结果集的大小。另外，对于管道聚合中的某些子聚合，也可以考虑使用分页参数来限制数据的处理量。确保这些分页参数的设定合理以避免不必要的数据检索和计算成本。还需要检查是否存在过多数据分割的极端情况导致的效率下降（对于大量的聚合，由于数据的分布可能导致需要访问过多的分片）。考虑对字段进行优化处理或者优化数据分布策略。同时检查是否有数据倾斜问题（某些分片的数据量远大于其他分片）。针对这个问题可以使用Elasticsearch的动态路由来提高性能或者使用合适的数据分布策略避免数据倾斜。通过重新路由或创建适当的分片映射可以改善性能问题。还需要确保索引是有效的并且分配了足够的资源来执行这些复杂的聚合操作（特别是使用bucket_sort等需要大量内存的操作）。考虑对内存分配进行调整以支持更高效的查询处理（确保Elasticsearch有足够的内存资源来执行操作）。另外检查Elasticsearch集群的健康状态和配置设置是否正确（如是否开启了足够的分片）。5 调整集群架构或设置。可能需要将大规模数据处理分布在集群内的不同节点上进行负载分散或横向扩展来处理更多数据负载。同时检查集群配置是否适合当前的工作负载需求包括分片数量、副本数量等设置以满足数据的分布式处理和存储需求从而提高整体性能效率减少瓶颈和优化数据访问速度特别是在涉及大规模数据聚合时确保集群配置能够支持这些操作的需求。总之针对Elasticsearch管道聚合在处理大量数据时出现的性能问题需要从多个方面进行优化和调整包括查询策略、硬件资源、数据结构、分页参数以及集群架构和设置等以达到最佳性能状态根据您的实际需求和数据量调整优化方案是非常必要的如果需要更深入的技术支持和调整请与相关技术团队进行联系共同研究和解决相关问题以实现最优的解决方案和提高性能表现此外随着Elasticsearch版本的更新新版本可能会带来新的优化特性和功能请考虑升级到最新版本以获得更好的性能和稳定性表现希望这些解决方案能够帮助您解决Elasticsearch管道聚合在处理大量数据时出现的性能问题如有其他问题请随时提问祝您好运！
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于#es#的问题，如何解决？(keyword类型，自定义权重排序) elasticsearch java
2023-01-15 12:53

回答 4 已采纳使用 script_score 查询，这种方式查询出来的结果是经过脚本计算后得到的分数，然后再按照分数进行排序。 GET index/_search { "query": { "funct
关于#ios#的问题，如何解决？(语言-c++) c++
2022-11-22 13:33

回答 1 已采纳可以查看手册：c语言-exp() 中的内容
关于#ar#的问题，请各位专家解答！ elasticsearch
2023-03-06 10:14

回答 6 已采纳 AR是增强现实( Augmented Reality)的缩写，是指通过计算机等技术将虚拟的数字信息与现实世界进行融合，使得用户可以在真实的场景中看到并与虚拟的物体进行交互。最近几年，AR技术在各个领域
elasticsearch 聚合 : 指标聚合、桶聚合、管道聚合解析使用总结
2024-06-25 23:43

码到三十五的博客 Elasticsearch中的聚合查询是一种功能强大的数据分析工具，它能够提供从索引中提取和计算有关数据的复杂统计信息的能力。聚合查询不仅可以帮助用户理解和分析数据中的趋势和模式，还能在业务决策中发挥关键作用。...
关于elasticsearch存储日志大小的问题 elasticsearch java
2021-09-22 10:03

回答 1 已采纳分词之后，空间必然上涨。
关于elasticsearch数据保存时间问题 elasticsearch java
2021-09-13 18:10

回答 1 已采纳不主动配置生命周期的情况是永久啊
elasticsearch启动中关于hadoop的问题 elasticsearch
2020-03-09 12:12

回答 1 已采纳 https://www.cnblogs.com/hseagle/p/5110033.html
【Elasticsearch】 06-管道聚合查询详解及示例
2023-06-24 11:36

Basililon的博客管道聚合查询是一种在聚合查询结果上进行进一步计算和分析的方式。它可以用于计算新的指标、进行比较、排序和筛选等操作。管道聚合查询通常作为其他聚合查询的后续处理步骤。
关于ElasticSearch7.x 异步并发读写的一些疑问 elasticsearch spring boot
2022-08-03 17:05

回答 2 已采纳这不是并发的问题好吧，你不看elasticsearch的基本介绍吗，近实时搜索引擎！数据的可见性取决于索引刷盘间隔，正常设置1s刷一次你的写入最差的情况下要1秒后刷盘才可能被检索，但是写入可以通过参数
多个字段聚合之后过滤如何解决性能问题 elasticsearch mysql 有问必答
2021-03-24 10:54

回答 1 已采纳可以试下clickHouse。但最好还是在流程上优化，先确定真的需要实现这个代价很高的功能吗？真的要查看所有数据而不是topN吗？不可以异步查询吗？
关于#javascript#的问题：用Browserify 把ES5【通过babel转成的】 javascript
2022-06-11 12:00

回答 2 已采纳经过仔细查看，发现 babel xxx -d xxx 转换的 es5 文件中的require 路径没有动态变化，还是es6的路径。改成es5的js 即可。不知道是babel bug
elasticsearc使用指南之ES管道聚合(Pipeline Aggregation)
2024-04-23 10:28

2401_84048621的博客其他参数： gap_policy 当管道聚合遇到不存在的值，有点类似于term等聚合的(missing)时所采取的策略，可选择值为：skip、insert_zeros。 skip：此选项将丢失的数据视为bucket不存在。它将跳过桶并使用下一个可用值...
Elasticsearch 7.8版本能和JDK8完美匹配吗？ elasticsearch
2022-01-03 10:26

回答 1 已采纳 ES7.8版本的官网说明：https://www.elastic.co/guide/en/elasticsearch/reference/7.8/targz.html7.8版本的 JAVA需求：htt
一起学Elasticsearch系列-聚合查询
2024-01-01 19:37

码农BookSea的博客聚合查询是 Elasticsearch 中一种强大的数据分析工具，用于从索引中提取和计算有关数据的统计信息。聚合查询可以执行各种聚合操作，如计数、求和、平均值、最小值、最大值、分组等，以便进行数据汇总和分析
ElasticSearch之聚合操作
2024-05-28 17:39

二月春风留的博客 Elasticsearch除搜索以外，提供了针对ES 数据进行统计分析的功能。可以让我们极其方便的实现对数据的统计、分析、运算。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月29日

悬赏问题

¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见
¥15 一共有五道问题关于整数幂的运算还有房间号码还有网络密码的解答？(语言-python)
¥20 sentry如何捕获上传Android ndk 崩溃
¥15 在做logistic回归模型限制性立方条图时候，不能出完整图的困难
¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动，如何解决？

关于#elasticsearch#的管道聚合问题，如何解决？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新