我正在尝试跟踪和监控 pod 需要多长时间才能上线/健康/运行。
我正在使用 EKS。我已经在我的集群上安装了 HPA 和 cluster-autoscaler。
假设我有一个HorizontalPodAutoscaler
具有 70% 扩展策略的部署targetAverageUtilization
。
因此,每当部署的平均利用率超过 70% 时,HPA 就会触发创建新的 POD。现在,基于不同的因素,例如节点是否可用,如果不可用,则需要下载图像或者它是否存在于缓存中,缩放可能需要几秒钟到几分钟的时间。
我想跟踪这个时间/持续时间,每次安排 POD 时,需要多长时间才能进入Running
状态。有什么建议么?
或者我应该看的任何方向。
我找到了这个Cluster Autoscaler Visibility Logs,但这仅在 GCE 中可用。
我正在寻找任何解决方案,可以是开箱即用的集成,或者引发事件并将它们存储在一些时间序列数据库中或从 Prometheus抓取数据。但到目前为止,我找不到任何解决方案。
提前致谢。