elasticsearch分片异常，如何解决？

ElasticSearch中有一个索引中的编号2的主分片是UNASSIGNED这个状态，导致在查询ES时出现了

[2024-02-26T16:36:22,586][WARN ][r.suppressed             ] [4-PTU3i] path: /monitor_index_log/fullLog/d4d766f4ef4742909265655a04e56***, params: {index=monitor_index_log, id=d4d766f4ef4742909265655a04e56***, type=fullLog, timeout=1m}
org.elasticsearch.action.UnavailableShardsException: [monitor_index_log][2] primary shard is not active Timeout: [1m], request: [BulkShardRequest [[monitor_index_log][2]] containing [index {[monitor_index_log][fullLog][d4d766f4ef4742909265655a04e56***], source[n/a, actual length: [4.4kb], max length: 2kb]}]]
    at org.elasticsearch.action.support.replication.TransportReplicationAction$ReroutePhase.retryBecauseUnavailable(TransportReplicationAction.java:977) [elasticsearch-6.6.1.jar:6.6.1]
    at org.elasticsearch.action.support.replication.TransportReplicationAction$ReroutePhase.retryIfUnavailable(TransportReplicationAction.java:854) [elasticsearch-6.6.1.jar:6.6.1]
    at org.elasticsearch.action.support.replication.TransportReplicationAction$ReroutePhase.doRun(TransportReplicationAction.java:806) [elasticsearch-6.6.1.jar:6.6.1]

这是monitor_index_log索引的分片情况：

monitor_index_log  1 p STARTED    9627641  40.6gb *0.21*.*.** 4-PTU3i
monitor_index_log  1 r UNASSIGNED                              
monitor_index_log  2 p UNASSIGNED                              
monitor_index_log  2 r UNASSIGNED                              
monitor_index_log  4 p STARTED    9625519  40.6gb *0.21*.*.** 4-PTU3i
monitor_index_log  4 r UNASSIGNED                              
monitor_index_log  3 p STARTED    9626054  40.8gb *0.21*.*.** 4-PTU3i
monitor_index_log  3 r UNASSIGNED                              
monitor_index_log  0 p STARTED    9625479  40.7gb *0.21*.*.** 4-PTU3i
monitor_index_log  0 r UNASSIGNED

我尝试将分片分配到4-PTU3i节点上出现了monitor_index_log 索引的第 2 个分片是主分片，并且处于未分配状态。失败的分配原因是 ALLOCATION_FAILED，节点上的分片无法正常恢复

{"index":"monitor_index_log","shard":2,"primary":true,"current_state":"unassigned","unassigned_info":{"reason":"CLUSTER_RECOVERED","at":"2024-02-26T09:35:43.528Z","last_allocation_status":"no_valid_shard_copy"},"can_allocate":"no_valid_shard_copy","allocate_explanation":"cannot allocate because all found copies of the shard are either stale or corrupt","node_allocation_decisions":[{"node_id":"4-PTU3i1SyewNc3ze3Igxg","node_name":"4-PTU3i","transport_address":"10.21*.*.**:9300","node_attributes":{"ml.machine_memory":"33817477120","xpack.installed":"true","ml.max_open_jobs":"20","ml.enabled":"true"},"node_decision":"no","store":{"in_sync":false,"allocation_id":"lPtyO0KDQOSHXAS-aDQ2uw"}}]}

ES是单节点，想请问一下出现这种问题该如何解决

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-02-27 10:32
关注
引自免费微信小程序：皆我百晓生

在Elasticsearch中，分片未分配（UNASSIGNED）通常表示集群在尝试为该分片找到一个合适的节点进行分配时遇到了问题。针对你描述的情况，主分片2和其对应的副本分片均处于未分配状态，并且分配失败的原因是ALLOCATION_FAILED，具体原因为no_valid_shard_copy，这意味着集群无法找到有效的分片副本进行分配。

解决这个问题需要排查以下几个方面：

数据丢失或损坏：

确认数据节点上是否有该分片的有效副本。如果有，可能是元数据错误导致的无法识别有效副本。可以通过查看相关节点的数据目录下是否存在对应分片的文件来判断。
如果确实存在数据丢失或损坏，可能需要从备份恢复数据，或者如果数据可以容忍丢失，则删除索引并重新创建。

磁盘空间不足：

检查目标节点（如4-PTU3i）的磁盘空间是否足够。若磁盘空间不足，ES将无法分配新的分片。

分片设置与节点属性匹配问题：

检查节点的属性设置（如 node.attr.*），确保没有不兼容的限制性属性阻止了分片在这个节点上分配。

集群健康检查：

运行集群健康检查命令，确认集群整体状况：
curl -X GET "localhost:9200/_cluster/health?pretty"

手动强制分配分片：

在某些情况下，你可以尝试手动强制分配分片，但这并不总是推荐的解决方案，因为它可能会覆盖集群自动平衡的决策。仅当确定节点能够承载该分片时才执行此操作：
curl -X POST "localhost:9200/_cluster/reroute" -H 'Content-Type: application/json' -d' { "commands": [ { "allocate_stale_primary": { "index": "monitor_index_log", "shard": 2, "node": "4-PTU3i", "accept_data_loss": true } } ] }'

注意：accept_data_loss 参数意味着即使数据可能存在损坏，也允许分配。只有在你知道这样做不会影响业务时才使用它。

清理无效分片：

如果由于旧的、无效的或损坏的分片副本导致问题，可以尝试清理这些无效数据，然后让集群重新分配分片。这通常涉及停服维护和直接操作数据目录的内容，非常谨慎操作。

检查集群日志：

查看Elasticsearch的日志以获取更具体的错误信息，这有助于定位问题的具体原因。

升级或重启集群：

如果集群曾遇到过严重的网络中断或其他系统级问题，尝试重启整个集群或升级到最新稳定版，以修复潜在的软件问题。

总结来说，处理这类问题首先应确保集群及节点的状态良好，有足够的资源，并检查日志了解详细的错误信息。根据具体情况，采取相应的措施解决问题，必要时可寻求专业支持或查阅官方文档以获取更多帮助。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

编程语言 / 前端or后端，应该如何选择？
2022-06-19 18:07

程序员爱德华的博客 编程语言的选择：C/C++/C#、Java、Python、JavaScript等
Elasticsearch：什么是向量数据库？
2023-12-03 20:34

Elastic 中国社区官方博客的博客向量嵌入是主题、单词、图像或任何其他数据的数字表示。向量嵌入（也称为嵌入）由大型语言模型和其他人工智能模型生成。...了解如何部署文本嵌入更多关于向量嵌入的知识，请阅读文章 “Elasticsearch：什么是向量嵌入？
分布式爬虫与ElasticSearch
2021-06-16 22:05

Elasticsearch会自动对这些数据进行分片和复制，确保数据的安全性和可用性。用户可以通过简单的查询语句，快速地从海量数据中获取所需信息。在Go语言中，我们可以利用库如Golang-Elasticsearch（github....
Elasticsearch 集群故障排查及修复指南
2020-11-14 19:19

铭毅天下的博客 Elasticsearch 集群在运行的过程中，由于各种原因，经常会出现健康问题。比较直观的是：kibana监控、head插件监控显示集群非绿色（红色或者黄色）。遇到这种情况不要慌，本文...
Python操作Elasticsearch处理timeout超时
2020-09-16 12:06

Python作为一门广泛使用的编程语言，与Elasticsearch结合，能够方便地进行数据的索引、查询和管理。然而，在实际操作中，由于网络延迟、服务器负载或数据量过大，可能会遇到请求超时的问题。本文将详细介绍如何在...
【ES系列】Elasticsearch简介：为什么需要它？（基础篇）
2025-04-09 17:02

果冻kk的博客【ES系列】深入浅出讲解Elasticsearch！本文将带你全面了解ES的前世今生，以及它为什么能在当今技术栈中占据重要地位。作为ES起飞之路系列的开篇之作，本文从ES的定义、核心特性、技术优势、应用场景等多个维度，...
还不会ES？Elasticsearch快速入门实操指南送上
2021-07-02 15:48

斗者_2013的博客还不会ES？Elasticsearch入门实操指南送上
RedisSearch vs Elasticsearch：谁才是你的理想选择？
2025-02-04 13:00

墨瑾轩的博客通过以上步骤，你应该已经掌握了如何在.NET项目中集成和使用RedisSearch和Elasticsearch，并且了解了它们之间的主要区别和适用场景。无论是简单的任务还是复杂的任务，都可以通过合理的步骤和适当的异常处理来实现。...
Elasticsearch写入数据的过程是什么？以及是如何更新索引数据的
2021-11-21 13:32

Java非官方搬运工的博客最近面试过程中遇到问Elasticsearch的问题不少，这次总结一下，然后顺便也了解一下Elasticsearch内部是一个什么样的结构，毕竟总不能就只了解个倒排索引吧。本文标题就是我遇到过的两个问题，所以此次基本上只是围绕...
Elasticsearch简述
2024-08-18 18:14

快乐江小鱼的博客 Elasticsearch简述 Elasticsearch产品介绍 Elasticsearch是一个基于Apache Lucene的开源的分布式搜索和分析引擎，设计用于云计算中，能够快速处理大量数据。它能够近实时地进行复杂的查询，并且可以用于全文检索、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月27日

elasticsearch分片异常，如何解决？

4条回答 默认 最新

问题事件

4条回答默认最新