26

我喜欢使用 Prometheus 和 cAdvisor 监控容器,以便在容器重新启动时收到警报。我想知道是否有人对此有示例 Prometheus 警报。

4

3 回答 3

21

我使用以下 Prometheus 警报规则来查找容器在一小时内重新启动(可以修改为最大时间),它可能对您有所帮助。

Prometheus 警报规则示例

ALERT ContainerRestart/PodRestart
IF rate(kube_pod_container_status_restarts[1h]) * 3600 > 1
FOR 5s
LABELS {action_required = "true", severity="critical/warning/info"}
ANNOTATIONS {DESCRIPTION="Pod {{$labels.namespace}}/{{$labels.pod}} restarting more than once during last one hours.",
SUMMARY="Container {{ $labels.container }} in Pod {{$labels.namespace}}/{{$labels.pod}} restarting more than once times during last one hours."}

速度()

rate(v range-vector) 计算范围向量中时间序列的每秒平均增长率。单调性的中断(例如由于目标重新启动而导致的计数器重置)会自动调整。此外,计算推断到时间范围的末端,允许错过刮擦或刮擦周期与该范围的时间段的不完美对齐。以下示例表达式返回在过去 5 分钟内测量的每秒 HTTP 请求速率,范围向量中的每个时间序列:

rate(http_requests_total{job="api-server"}[5m])

rate 只能与计数器一起使用。它最适合警报和缓慢移动计数器的图形。

请注意,当将 rate() 与聚合运算符(例如 sum())或随时间聚合的函数(任何以 _over_time 结尾的函数)结合使用时,始终先使用 rate(),然后再进行聚合。否则,当您的目标重新启动时,rate() 无法检测到计数器重置。

kube_pod_container_status_restarts_total

指标类型:计数器

标签/标签: container=container-name, namespace=pod-namespace,pod=pod-name

描述:每个 pod 的容器重启次数

于 2018-07-09T12:06:37.820 回答
10

如果您在 Kubernetes 中运行,您可以部署kube-state-metrics发布 pod 重启指标的容器:https ://github.com/kubernetes/kube-state-metrics

于 2017-01-15T21:07:55.117 回答
5

我使用 Compose 和 Swarm 部署,所以 Kubernetes 答案不是一个选项。所以我来到了这个规则。

- alert: Container (Compose) Too Many Restarts
  expr: count by (instance, name) (count_over_time(container_last_seen{name!="", container_label_restartcount!=""}[15m])) - 1 >= 5
  for: 5m
  annotations:
    summary: "Too many restarts ({{ $value }}) for container \"{{ $labels.name }}\""

- alert: Container (Swarm) Too Many Restarts
  expr: count by (instance, container_label_com_docker_swarm_service_name) (count_over_time(container_last_seen{container_label_com_docker_swarm_service_name!=""}[15m])) - 1 >= 5
  for: 5m
  annotations:
    summary: "Too many restarts ({{ $value }}) for container \"{{ $labels.container_label_com_docker_swarm_service_name }}\""

基本上,两者的工作方式相同。每个服务有多个记录,但标签不同。

  • container_label_restartcount除了标签之外,撰写的都是相同的

    {instance="instance1",name="service1",container_label_restartcount="1",...}
    {instance="instance1",name="service1",container_label_restartcount="2",...}
    {instance="instance1",name="service1",container_label_restartcount="3",...}
    
  • Swarm 看起来有点不同,因为新容器是在重新启动服务时创建的(例如,从失败的健康检查中)。name标签已更改,container_label_com_docker_swarm_service_name充当服务名称。

    {instance="instance1",name="service1.1.<hash1>",container_label_com_docker_swarm_service_name="service1",...}
    {instance="instance1",name="service1.1.<hash2>",container_label_com_docker_swarm_service_name="service1",...}
    {instance="instance1",name="service1.1.<hash3>",container_label_com_docker_swarm_service_name="service1",...}
    

所以这个想法只是计算每个实例和名称的唯一记录。我个人认为每次重启都发送警报是错误的并且没有用。我选择在一段时间内是否有超过5重新启动时发出警报15m。在我的规则中,我container_last_seen随机使用了度量,这实际上并不重要,因为计数是通过标签的差异来完成的。我们只需要一个持久的指标。另外,请注意- 1表达式末尾的 。我们必须 substruct 1,因为我们正在计算唯一记录,所以如果您的容器正在运行,那么总是至少有一个。

您可能需要将此示例修改为具有多个副本的 swarm 服务,但您知道如何计算唯一标签。

于 2020-09-07T18:56:11.513 回答