10亿级数据量下ES的索引和检索优化

项目中ES的数据总计有10个索引20亿数据，最大的索引中数据量有3.5亿左右，同时索引的数据中存在文章的标题、摘要等大字段。目前对于ES的检索速度很慢，而且在未缓存时会连续的查询超时。日常的使用场景中会包含通过标题和摘要的分词查询以及全部索引的联合查询，同时也会进行几十个检索词的AND、OR、模糊和精确的多索引多字段查询。如何提高查询效率？如果要对索引进行拆分的话，如何拆分？处理之后预计的查询效率有多少？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
道友老李 JWE233286一种基于机器视觉的水表指针读数识别及修正的方法专利发明者 2025-02-07 10:31
关注
让【道友老李】来帮你解答，本回答参考gpt编写，并整理提供，如果还有疑问可以点击头像关注私信或评论。
如果答案让您满意，请采纳、关注，非常感谢！
在处理Elasticsearch（ES）大规模数据查询效率低下的问题时，可以从多方面入手，提高索引的结构、查询的方式、以及硬件资源的配置。以下将对此进行详细的分析并给出相应的解决策略。
1. 优化查询策略

1.1 使用合适的查询类型 - 对于复杂的查询，使用组合查询时，确保使用bool查询进行合理的must, should, must_not组合。 - 尽量避免使用terms查询以外的复杂查询，例如尽量将多个查询合并成一个bool查询。案例:

{ "query": { "bool": { "must": [ { "match": { "title": "检索词" }}, { "match": { "abstract": "摘要内容" }} ], "should": [ { "match": { "keywords": "关键词" }}, { "wildcard": { "title": "*模糊*" }} ] } } }

1.2 精确查询与模糊查询的合理搭配 - 针对不需要精确匹配的场景，可考虑使用fuzzy查询渐进式扩大匹配范围。

2. 索引优化

2.1 修改索引设置 - 增加refresh_interval的时间，批量写入时代价较高，降低refresh_interval可减少写入负担。 - 提高每个索引的shard数量，合理分配数据到多个节点中。 2.2 拆分索引 - 根据业务场景，将数据拆分为多个索引。例如，考虑将大字段和小字段分别索引到不同的索引中。对于大字段，如标题和摘要，可以进行全文检索的单独索引，而对于小字段则可以独立索引。 拆分方式: - 按照时间：将数据按月份或季度拆分索引。 - 按业务维度：将不同类型的数据（如文章、评论等）拆分至不同索引。

3. 硬件/集群优化

3.1 硬件资源 - 增加节点数，分散数据和查询压力。 - 提高节点内存（保证JVM堆内存和物理内存的合理比例）。 3.2 获取性能监控数据 - 使用Elastic Stack监控集群的健康，可视化分析查询延迟以及慢查询日志明确瓶颈。

4. 预计的查询效率提升

实施以上优化后，理论上的查询效率提升如下： - 针对单个复杂查询，从原本的数秒可能缩短到毫秒级别。 - 拆分后的多个索引可并行处理请求，整体响应速度可能提高50%以上，具体依赖于集群的负载和复杂度。

5. 结论

在处理Elasticsearch的数据查询效率问题时，需系统性地考虑查询优化、索引设计以及硬件资源配置。常见的优化方法包括调整查询结构、重构索引、增加硬件资源，同时监控集群性能以不断调整策略。通过上述对策，预计能显著提高查询效率，改善用户体验。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Elasticsearch 亿级数据检索性能优化案例实战
2022-09-15 11:30

架构师小秘圈的博客 www.cnblogs.com/mikevictor07/p/10006553.html一、前言数据平台已迭代三个版本，从头开始遇到很多常见的难题，终于有片段时间整理一些已完善的文档，在此分享以供所需朋友的实现参考，少走些弯路，在此篇幅中偏重于...
elasticsearch 单索引 6T 20亿数据搜索实战与优化深度思考
2022-01-20 01:07

水的精神的博客 数据量大概有20亿，对应的存储量大概有6T（不带副本的情况下）。单条数据会有上百个字段，用来刻画网络设备画像。我们有比较特殊的需求：我们有频繁更新的需求，每天几千万，甚至上亿。我们并不能做根据时间...
Elasticsearch 性能优化：大数据场景下的调优技巧
2025-09-01 21:55

AI大数据智能洞察的博客想象你经营着一家大型电商平台，每天有10亿条用户行为日志需要存储和分析，营销团队需要实时查看“过去1小时哪些商品被搜索最多”，运维团队需要从日志中快速定位系统故障——这时候，ES就是你的“数据大脑”。...
ElasticSearch 亿级数据检索深度性能优化
2021-11-28 02:20

光子AI的博客一、前言数据平台已迭代三个版本，从头开始遇到很多...【目前生产已存储百亿数据，性能良好(但未使用分词功能)】二、需求说明项目背景：在一业务系统中，部分表每天的数据量过亿，已按天分表，但业务上受限于按天查...
【优化】ElasticSearch 亿级数据检索深度优化
2021-10-01 10:41

Impl_Sunny的博客在一业务系统中，部分表每天的数据量过亿，已按天分表，但业务上受限于按天查询，并且DB中只能保留3个月的数据(硬件高配)，分库代价较高。改进版本目标：数据能跨月查询，并且支持1年以上的历史数据查询与导出...
elasticsearch(es)- 在数据量很大的情况下（数十亿级别）提高查询效率
2024-06-19 13:50

An0407的博客然后这样的话，你大量的时间是在访问热数据 index，热数据可能就占总数据量的 10%，此时数据量很少，几乎全都保留在 filesystem cache 里面了，就可以确保热数据的访问性能是很高的。根据我们自己的生产环境实践经验...
ElasticSearch第4篇（亿级中文数据量 ElasticSearch与Sphinx建索引速度、查询速度、并发性能、实测对比）
2024-07-28 09:36

小松聊PHP进阶的博客 ElasticSearch第4篇（亿级中文数据量 ElasticSearch与Sphinx建索引速度、查询速度、并发性能、实测对比）
ElasticSearch 亿级数据检索深度优化！
2019-11-29 07:11

公众号:肉眼品世界的博客一、前言数据平台已迭代三个版本，从头开始遇到很多常见的难题，终于有片段时间整理一些已完善的文档，在此分享以供所需朋友的实现参考，少走些弯路，在此篇幅中偏重于ES的优化，关于HBase，H...
E往无前｜腾讯云大数据ES索引原理剖析及写入性能优化最佳实践
2023-06-29 18:00

腾讯云大数据的博客本文经过大量案例总结和踩坑复盘，归纳整理了Elastisearch集群在写入性能优化方面一些常用的优化技巧和避坑指南。
es对几十亿数据能达到秒级响应吗_ElasticSearch 亿级数据检索深度优化！
2020-12-21 22:00

weixin_39618339的博客一、前言数据平台已迭代三个版本，从头开始...二、需求说明项目背景：在一业务系统中，部分表每天的数据量过亿，已按天分表，但业务上受限于按天查询，并且DB中只能保留3个月的数据(硬件高配)，分库代价较高。改进...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月7日

10亿级数据量下ES的索引和检索优化

4条回答 默认 最新

1. 优化查询策略

2. 索引优化

3. 硬件/集群优化

4. 预计的查询效率提升

5. 结论

问题事件

4条回答默认最新