问题标签 [sre]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 通过配置 Yaml 从 Jmx 导出器中消除特定值
这是当前的Jmx 导出器模式:
电流输出:
这实际上工作正常。但是为了提高基数,我们决定不公开修改 Yml 的 0.0 值(如果有的话)。
上述样本的预期输出是,
请随时在下面发表评论。
linux - chef recipe 检查进程计数并监控打开文件描述符的数量
我正在尝试更新metricbeat_cookbook
以获取一些必需的信息。
监控运行每个服务器的会话数和 html5 客户端进程数。
ps -ef | grep -i html5 | wc -l
. 这是我在食谱/食谱中需要的逻辑。在 linux 服务器上打开文件描述符(这是逻辑
cat /proc/sys/fs/file-nr
)
任何回复/帮助对我都有很大帮助 - 提前致谢。
rest - 用于 99% 的 REST API 可用性的 prometheus 警报表达式
如果 API 在 99% 的情况下都不可用,我想在 Prometheus 中为 REST API 创建警报。我是普罗米修斯表达的新手。你能帮我创建一个表达式来触发这个警报吗?例如,如果我有一个跟踪 http 失败的计数器 failed_counter。请帮忙。
prometheus - Prometheus 规则 - 检查应用容器目录中的文件计数
我正在寻找编写一个普罗米修斯规则来不断检查消息队列长度(exim 邮件中继),这是应用程序容器中目录中的文件总数,并通过警报管理器提醒松弛通道。Prometheus/Alert manager 这可能吗?
python - python psutil vs linux top
我想以秒为单位获得 cpu 利用率。我用
它有效,但我发现结果与top
.
为什么会发生这种情况,哪一个是真正的 cpu 利用率?非常感谢!
docker - Jenkins CI Pipeline 中的锚定容器扫描
我需要有关 Jenkinsfile CI 文件的帮助。
Jenknsfile 中的代码如下所示:
在我包含此阶段后,当容器映像阶段不存在时,它运行良好。它一直运行到构建阶段,然后失败。
这是错误的输出:
请帮我解决这个问题。
kubernetes - kubernetes 是否会重新调整 pod 以利用资源?
想象一下 K8s 集群有 2 个工作节点和资源(CPU:4,RAM:8G)。最重要的是,需要部署 3 个应用程序 A、B 和 C,每个 pod 配置 2 个 CPU 和 4G RAM。(假设主机消耗的 CPU 和内存可以忽略不计)。
案例 1:在部署应用程序 A、B 和 C 时。应用程序 A 和 B 的 Pod 在工作节点 1 上调度和部署,而应用程序 C 在工作节点 2 上。
案例2:现在,不再需要应用程序B,因此将其删除。
阙:
- 应用程序 C pod 是否会在工作节点 1 上重新洗牌以确保自动优化资源?
- 如果不是自动的,在确保应用程序 C 的 HA 的情况下手动重组 pod 是否可行。
sre - Sre 生产问题及其解决方案 材料或内容?
是否有人有任何材料或建议视频课程 - 显示 Sre 将解决哪些特定生产问题(非通用)以及故障排除方法以及如何解决这些问题。
prometheus - PromQL 查询从固定日期计算服务正常运行时间和停机时间
我正在尝试构建一个基本的 SRE 仪表板来学习 Prometheus/Grafana。
我想计算自今年 1 月 1 日以来服务已运行的小时数和停机小时数,以便我可以从错误预算中减少停机时间。可以使用 PromQL 查询来计算吗?
我更喜欢使用一个指标,例如up
无论使用什么导出器/客户端库都可以使用。