问题标签 [sre]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
156 浏览

java - 通过配置 Yaml 从 Jmx 导出器中消除特定值

这是当前的Jmx 导出器模式:

电流输出:

这实际上工作正常。但是为了提高基数,我们决定不公开修改 Yml 的 0.0 值(如果有的话)。

上述样本的预期输出是,

请随时在下面发表评论。

0 投票
0 回答
70 浏览

linux - chef recipe 检查进程计数并监控打开文件描述符的数量

我正在尝试更新metricbeat_cookbook以获取一些必需的信息。

  1. 监控运行每个服务器的会话数和 html5 客户端进程数。ps -ef | grep -i html5 | wc -l. 这是我在食谱/食谱中需要的逻辑。

  2. 在 linux 服务器上打开文件描述符(这是逻辑cat /proc/sys/fs/file-nr

任何回复/帮助对我都有很大帮助 - 提前致谢。

0 投票
1 回答
27 浏览

rest - 用于 99% 的 REST API 可用性的 prometheus 警报表达式

如果 API 在 99% 的情况下都不可用,我想在 Prometheus 中为 REST API 创建警报。我是普罗米修斯表达的新手。你能帮我创建一个表达式来触发这个警报吗?例如,如果我有一个跟踪 http 失败的计数器 failed_counter。请帮忙。

0 投票
2 回答
582 浏览

prometheus - Prometheus 规则 - 检查应用容器目录中的文件计数

我正在寻找编写一个普罗米修斯规则来不断检查消息队列长度(exim 邮件中继),这是应用程序容器中目录中的文件总数,并通过警报管理器提醒松弛通道。Prometheus/Alert manager 这可能吗?

0 投票
0 回答
41 浏览

python - python psutil vs linux top

我想以秒为单位获得 cpu 利用率。我用

它有效,但我发现结果与top.

为什么会发生这种情况,哪一个是真正的 cpu 利用率?非常感谢!

0 投票
1 回答
135 浏览

docker - Jenkins CI Pipeline 中的锚定容器扫描

我需要有关 Jenkinsfile CI 文件的帮助。

Jenknsfile 中的代码如下所示:

在我包含此阶段后,当容器映像阶段不存在时,它运行良好。它一直运行到构建阶段,然后失败。

这是错误的输出:

请帮我解决这个问题。

0 投票
0 回答
45 浏览

kubernetes - kubernetes 是否会重新调整 pod 以利用资源?

想象一下 K8s 集群有 2 个工作节点和资源(CPU:4,RAM:8G)。最重要的是,需要部署 3 个应用程序 A、B 和 C,每个 pod 配置 2 个 CPU 和 4G RAM。(假设主机消耗的 CPU 和内存可以忽略不计)。

案例 1:在部署应用程序 A、B 和 C 时。应用程序 A 和 B 的 Pod 在工作节点 1 上调度和部署,而应用程序 C 在工作节点 2 上。

案例2:现在,不再需要应用程序B,因此将其删除。

阙:

  1. 应用程序 C pod 是否会在工作节点 1 上重新洗牌以确保自动优化资源?
  2. 如果不是自动的,在确保应用程序 C 的 HA 的情况下手动重组 pod 是否可行。
0 投票
0 回答
34 浏览

sre - 在 SRE 上下文中,page 和 pager 是什么意思?

我一直在阅读 Google SRE Book,并且在多行中找到了pagepager一词。在这种情况下,它们是什么意思?

sre书图像

见链接

谢谢你。

0 投票
0 回答
54 浏览

sre - Sre 生产问题及其解决方案 材料或内容?

是否有人有任何材料或建议视频课程 - 显示 Sre 将解决哪些特定生产问题(非通用)以及故障排除方法以及如何解决这些问题。

0 投票
1 回答
597 浏览

prometheus - PromQL 查询从固定日期计算服务正常运行时间和停机时间

我正在尝试构建一个基本的 SRE 仪表板来学习 Prometheus/Grafana。

我想计算自今年 1 月 1 日以来服务已运行的小时数和停机小时数,以便我可以从错误预算中减少停机时间。可以使用 PromQL 查询来计算吗?

我更喜欢使用一个指标,例如up无论使用什么导出器/客户端库都可以使用。