1

在我的 Kubernetes 集群中,我有 Prometheus、Grafana 用于监控堆栈和 EFK 堆栈用于日志。

我创建了一些由来自 node-exporter 的指标触发的 Grafana 警报。

此外,我还可以在 Kibana 上看到 Kubernetes 节点 (VM) 日志。

当节点一段时间没有日志时,我想在 Grafana 上创建警报。

最好的方法是什么?

我将 ElasticSearch (ES) 作为数据源连接到 Grafana。我可以在 Grafana 图表上看到 ES 日志指标。但是,这个解决方案似乎有问题。

因为当所有旧节点都消失并创建新节点时,集群可能会被缩减 - 升级。

第一个不是什么大问题(如果警报仅在第一次满足条件时触发)

第二个可能会导致数十个警报。

4

1 回答 1

0

您需要监控节点资源消耗以确保集群中的所有节点都健康。使用以下数据:集群中有足够的节点,资源分配足以用于部署的应用程序,etcd 是健康的,您没有使用任何资源。

NewRelic解决方案可以帮助您,它跟踪每个 Kubernetes 节点的资源消耗(使用的内核和内存)。这使您可以跟踪分布式服务中不同节点上的容器之间发送的网络请求数量。

如果您设置警报,您将在节点停止报告(没有日志)或节点的 CPU 或内存使用率降至所需阈值以下时收到通知。

于 2019-09-10T05:57:08.623 回答