问题标签 [sre]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

39 问题

0 投票

2 回答

156 浏览

java - 通过配置 Yaml 从 Jmx 导出器中消除特定值

这是当前的Jmx 导出器模式：

电流输出：

这实际上工作正常。但是为了提高基数，我们决定不公开修改 Yml 的 0.0 值（如果有的话）。

上述样本的预期输出是，

请随时在下面发表评论。

java yaml prometheus jmx sre

2021-01-08T03:30:03.070

0 投票

0 回答

70 浏览

linux - chef recipe 检查进程计数并监控打开文件描述符的数量

我正在尝试更新metricbeat_cookbook以获取一些必需的信息。

监控运行每个服务器的会话数和 html5 客户端进程数。ps -ef | grep -i html5 | wc -l. 这是我在食谱/食谱中需要的逻辑。
在 linux 服务器上打开文件描述符（这是逻辑cat /proc/sys/fs/file-nr）

任何回复/帮助对我都有很大帮助 - 提前致谢。

linux chef-infra metricbeat sre

2021-02-10T05:56:39.233

0 投票

1 回答

27 浏览

rest - 用于 99% 的 REST API 可用性的 prometheus 警报表达式

如果 API 在 99% 的情况下都不可用，我想在 Prometheus 中为 REST API 创建警报。我是普罗米修斯表达的新手。你能帮我创建一个表达式来触发这个警报吗？例如，如果我有一个跟踪 http 失败的计数器 failed_counter。请帮忙。

rest prometheus sli sre

2021-03-22T04:23:49.853

0 投票

2 回答

582 浏览

prometheus - Prometheus 规则 - 检查应用容器目录中的文件计数

我正在寻找编写一个普罗米修斯规则来不断检查消息队列长度（exim 邮件中继），这是应用程序容器中目录中的文件总数，并通过警报管理器提醒松弛通道。Prometheus/Alert manager 这可能吗？

prometheus prometheus-alertmanager exim sre

2021-04-09T12:17:53.620

0 投票

0 回答

41 浏览

python - python psutil vs linux top

我想以秒为单位获得 cpu 利用率。我用

它有效，但我发现结果与top.

为什么会发生这种情况，哪一个是真正的 cpu 利用率？非常感谢！

python linux sre

2021-04-14T15:51:55.573

0 投票

1 回答

135 浏览

docker - Jenkins CI Pipeline 中的锚定容器扫描

我需要有关 Jenkinsfile CI 文件的帮助。

Jenknsfile 中的代码如下所示：

在我包含此阶段后，当容器映像阶段不存在时，它运行良好。它一直运行到构建阶段，然后失败。

这是错误的输出：

请帮我解决这个问题。

docker jenkins jenkins-pipeline jenkins-groovy sre

2021-05-05T10:44:05.573

0 投票

0 回答

45 浏览

kubernetes - kubernetes 是否会重新调整 pod 以利用资源？

想象一下 K8s 集群有 2 个工作节点和资源（CPU：4，RAM：8G）。最重要的是，需要部署 3 个应用程序 A、B 和 C，每个 pod 配置 2 个 CPU 和 4G RAM。（假设主机消耗的 CPU 和内存可以忽略不计）。

案例 1：在部署应用程序 A、B 和 C 时。应用程序 A 和 B 的 Pod 在工作节点 1 上调度和部署，而应用程序 C 在工作节点 2 上。

案例2：现在，不再需要应用程序B，因此将其删除。

阙：

应用程序 C pod 是否会在工作节点 1 上重新洗牌以确保自动优化资源？
如果不是自动的，在确保应用程序 C 的 HA 的情况下手动重组 pod 是否可行。

kubernetes devops google-kubernetes-engine amazon-eks sre

2021-05-24T09:53:11.177

0 投票

0 回答

34 浏览

sre - 在 SRE 上下文中，page 和 pager 是什么意思？

我一直在阅读 Google SRE Book，并且在多行中找到了page和pager一词。在这种情况下，它们是什么意思？

谢谢你。

sre

2021-05-25T12:35:24.783

0 投票

0 回答

54 浏览

sre - Sre 生产问题及其解决方案材料或内容？

是否有人有任何材料或建议视频课程 - 显示 Sre 将解决哪些特定生产问题（非通用）以及故障排除方法以及如何解决这些问题。

sre

2021-06-11T23:47:33.823

0 投票

1 回答

597 浏览

prometheus - PromQL 查询从固定日期计算服务正常运行时间和停机时间

我正在尝试构建一个基本的 SRE 仪表板来学习 Prometheus/Grafana。

我想计算自今年 1 月 1 日以来服务已运行的小时数和停机小时数，以便我可以从错误预算中减少停机时间。可以使用 PromQL 查询来计算吗？

我更喜欢使用一个指标，例如up无论使用什么导出器/客户端库都可以使用。

prometheus grafana promql sre sli

2021-06-12T18:31:43.093

1 2 3 4 5 6 7 8 9 10