问题标签 [istio-prometheus]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
kubernetes - 调整 Kubernetes 集群大小时 Istio Dashboard 失败
我最近在 Google Cloud 上的 Kubernetes Cluster (GKE) 和各种其他插件(如 Grafana Prometheus 仪表板等)中安装了 Istio 1.7.3。我已经使用 Istio 服务和其他参数配置了仪表板,当我将集群大小调整为0(零)并在几次后再次将其调整为 2(或根据要求)。我发现配置的 Grafana 和 Prometheus 仪表板在集群调整大小过程后丢失了所有配置的仪表板。所有仪表板都不可用,我创建的用户也不存在。使用 Prometheus、Grafana 和其他仪表板安装和管理 ISTIO 的最佳做法是什么?
prometheus - Prometheus Operator - 启用 Istio 监控时 OOM 被杀死
我想向您寻求帮助 - 在启用 Istio 指标监控时,如何防止 Prometheus 因内存不足而被杀死?我使用 Prometheus Operator 并且对指标的监控工作正常,直到我为 Istio 创建 ServiceMonitors,取自Prune on Medium 的这篇文章。从文章来看,它们如下:
数据平面的 ServiceMonitor:
控制平面的 ServiceMonitor:
创建 Istio 数据平面的 ServiceMonitor 后,内存使用量在一分钟内从大约 10GB 增加到 30GB,并且 Prometheus 副本被 Kubernetes 杀死。CPU使用率正常。怎样才能防止资源使用量出现如此巨大的增长?重新标记有什么问题吗?它应该从大约 500 个端点抓取指标。
[编辑]
从调查看来,这对资源使用有很大影响的是重新标记。例如,如果我将 targetLabel 更改为 pod 而不是 pod_name,则资源使用量会立即增加。
无论如何,我没有找到解决这个问题的方法。我在 GithHub 上使用了 Istio 提供的半官方ServiceMonitor 和 PodMonitor,但它只是让 Prometheus 在 Out Of Memory Exception 之前运行得更久。现在,从 ~10GB 到 32GB 的内存使用大约需要一个小时。
我可以看到的是,启用 Istio 指标后,时间序列的数量增长得非常快并且永不停止,在我看来这看起来像是内存泄漏。在启用 Istio 监控之前,这个数字相当稳定。
你有什么其他的建议?
grafana - Istio+Grafana 101:为什么不在网格中的服务出现在 Mesh Dashboard 上?
我的配置:
- istio 1.8.5,通过 helm 安装并在一小部分命名空间上启用,标记为 istio.io/rev=1-8-5(不能使用更新版本,因为我们的 k8s 集群仍然是 1.16.x)
- 仅为 istio 抓取而安装的 prometheus 插件实例
- 公司范围的 grafana 6.6.0,使用https://grafana.com/orgs/istio/dashboards上提供的仪表板
我的疑问是我认为 Istio Mesh Dashboard 上出现的“数据过多”。在 上HTTP/gRPC Workloads table
,grafana 显示了许多未“启用 istio”并最终显示NaN
数据的工作负载。我什至得到了一些服务,它们的名称只有一个破折号 ( -
)。
这是预期的吗?istio 指标不应该只返回启用它的服务/工作负载吗?
有没有办法将抓取限制在启用 istio 的命名空间?
Istio 服务仪表板和 Istio 工作负载仪表板也是如此。在所有这些上,我得到的服务,恕我直言,不应该在那里......
感谢您提供任何提示/建议/解决方案。
istio - 删除 Istio Sidecar 的报告指标
我将 Istio 1.8 用于服务网格,使用 Prometheus 从边卡收集指标。目前,这些指标由边卡提供:
这一数量的指标使用了大量的网络带宽。(我们有大约 5k 个 pod)
我们现在需要的只是istio_requests_total
并且istio_request_duration_milliseconds_bucket
仅来自Inbound。我知道如何删除标签,EnvoyFilter
但我无法找到删除指标的文档。
prometheus - 使用 Prometheus 和 Envoy 侧车代理抓取应用程序指标
我正在为我的工作负载使用 GKE。我已经在我的集群上安装了 Istio 1.11.0。我还istio-system
使用此链接在命名空间中安装了 Prometheus 。
我在prom-test
命名空间中部署了一个 Python 应用程序,它在端口 8080 收集指标,如下所示。
我在部署文件中使用了以下注释来让Prometheus抓取指标
1)应用程序容器和2)特使代理容器中运行了2个容器
当我打开 Prometheus 仪表板时,我看到所有目标都已启动,并且对于我的应用程序,它正在被抓取
但我可以看到任何与应用程序相关的指标?
如果这里的退伍军人可以提供相同的建议,那将非常有帮助
istio-gateway - 在集群外公开 kiali 和 grafana 服务
我在 Istio 服务网格上设置了 Kiali 和 Prometheus 插件。目前,我将这些服务公开为 LoadBalancer,以便我可以从本地计算机访问集群外部的这些服务。
我可以创建一个 Ingress 控制器并使用 Ingress 控制器路由到 Prometheus 和 Kiali,以便我可以使用单个 LoadBalancer 来访问两个仪表板