1

几天来,我们在使用 ElasticSearch 查询时遇到了很多失败。当我监控集群运行状况时,CPU/JVM 内存利用率很高(几乎 98%)。在调试问题时,我发现最后一个自动快照是我IN_PROGRESS状态超过 20 天,我怀疑这是根本原因。但我不确定是什么导致了长快照,并且无法停止/删除该快照。当我使用带有 aws 签名的邮递员在存储库上尝试 http DELETE 请求时,401 Unauthorized出现 message 错误Your request is not allowed

谁能帮助我了解长期运行的快照问题以及如何解决它。

提前致谢。

4

1 回答 1

3

这是 elasticsearch 中快照卡住的经典案例。当主节点和数据节点对分片的快照状态不同步时,就会发生卡住快照。这通常发生在集群变红或某些节点在高 JVM 压力下突然从集群中退出时。

高 CPU/JVM 内存利用率通常不是由卡住的快照引起的。IN_PROGRESS大多数情况下,它的其他方式,即快照由于高 JVM 利用率而陷入状态。为了获得更好的 elasticsearch 集群性能,您应该尝试将 JVM 保持在 80% 以下。扩展是减少 JVM 压力的一种选择。

不允许用户访问 AWS Elasticsearch 上的自动快照。要解决在 IN_PROGRESS 状态下卡住快照的问题,您应该联系AWS Elasticsearch 客户支持

于 2020-11-25T09:53:42.637 回答