问题标签 [google-cloud-stackdriver]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
kubernetes - 使用 Google Container Engine (GKE) 和 Stackdriver 监控和提醒 Pod 状态或重启
有没有办法使用 Stackdriver 监控 GKE 集群中运行的 pod 状态和重启次数?
虽然我可以在 Stackdriver 中查看所有 pod 的 CPU、内存和磁盘使用指标,但似乎无法获取有关崩溃 pod 或副本集中的 pod 因崩溃而重新启动的指标。
我正在使用 Kubernetes 副本集来管理 pod,因此它们在崩溃时会重新生成并使用新名称创建。据我所知,Stackdriver 中的指标由 pod-name 显示(这在 pod 的生命周期中是唯一的),这听起来并不明智。
对 pod 故障发出警报听起来是一件很自然的事情,以至于听起来很难相信目前不支持此功能。我从 Stackdriver for Google Container Engine 获得的监控和警报功能似乎没什么用,因为它们都绑定到生命周期可能非常短的 Pod。
因此,如果这不能开箱即用,是否有已知的解决方法或最佳实践来监控持续崩溃的 pod?
google-cloud-platform - 如何使用 Stackdriver 检查 GCE 实例的正常运行时间?
我有哪些选项可以检查 GCE 实例的正常运行时间?
- 我是否需要安装监控代理,在监控文档中虽然它只提到了对 GCE 实例上安装的 Apache 服务器的正常运行时间检查,但如果 GCE 实例本身没有启动,我如何检查它是否启动?网络服务器就可以了?
stackdriver - 将自定义收集的 PostgreSQL 指标导出到 GCP Stackdriver Monitoring
背景
我正在尝试通过在 stackdriver-agents collectd 配置目录中<Query>
向我的 PostgreSQL 配置(来自Stackdriver PostgreSQL Plugin的原始配置)添加自定义语句来导出 PostgreSQL 复制延迟。
/opt/stackdriver/collectd/etc/postgresql.conf
:
stackdriver-agent 日志确认插件已加载并且插件能够连接到 PostgreSQL 服务器。
到这个时候,在查看“Instance (GCE)”资源的指标时,我希望看到我的“log_delay”指标显示在 Stackdriver 监控中。我可以看到其他 PostgreSQL 指标已经通过,更具体地说:
我似乎也找不到从Stackdriver PostgreSQL Plugin Documentation
引用的默认 PostgreSQL collectd 配置Query [...]
继承的任何其他默认指标:
问题
- 如何让我收集的自定义 replication_lag_seconds 指标显示在 Stackdriver Monitoring 中?
- 我是否需要配置自定义指标才能让指标显示在 Stackdriver Monitoring 中?
java - 如何使用 Google 监控 stackdriver 代理监控 http 指标(例如响应时间或 http 状态代码)?
我想我有一个非常简单的用例:
- 通过端点(localhost:8002/metrics)和 JMX 公开指标的Spring Boot Java 应用程序
- 托管该应用程序的谷歌计算引擎机器(或谷歌容器引擎中的 pod)
我希望在监控仪表板中包含从 Spring Boot 公开的简单指标(如 http 状态代码、http 响应时间百分位数等)。在某种程度上,它与appengine提供的非常相似,但在 GCE/GKE 实例上。
我尝试过了:
- 使用jvm 收集器配置 stackdriver 代理->问题:只收集基本的 jvm 指标
- 使用 collectd 插件配置一个 stackdriver 代理,该插件检索我的指标并推送到谷歌云监控 - >问题:我遇到了几个错误,因为代理无法理解 collectd jmx/json 插件
- 通过 Google Cloud Load Balancing ->问题:显然该服务没有指标
- 通过 nginx 服务器并使用nginx 收集器配置 stackdriver 代理- >问题:再次只收集真正的基本指标
所以真正的问题是:
- 我错过了什么还是唯一的方法是通过自定义指标?
- 除了 java/spring boot/etc .. 这里有没有人在 Google Cloud 上运行应用程序并使用 Stackdriver监控这些指标?
顺便说一句:如果有人有兴趣提供帮助,这里是我开始做一些实验的github repo
google-cloud-platform - 使用 Stackdriver 监控 Google Container Engine 磁盘使用百分比
有没有办法使用stackdriver检查google集群中volumes/pd的磁盘使用情况?
我们找到了一种检查使用的字节的方法,但是当无法将其与限制(百分比使用)进行比较时,这是非常无用的......
而且没有字节免费指标。
我阅读了有关自定义指标的信息,但不明白这些在此处有何帮助。有没有办法添加一个我们需要的策略(可能通过 api)?
postgresql - Stackdriver 在 GCE 上监控 postgresql 的问题
我在 Google Compute Engine (ubuntu) 上安装了 Stackdriver,并尝试对其进行配置以监控安装在该实例中的 postgresql 服务。
日志显示它能够连接到数据库,但是在尝试获取统计数据时失败。
这是我执行命令“service stackdriver-agent status”时的结果
关于我错过了什么的任何想法?