问题标签 [sre]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
jenkins - 监控 Jenkins E2E 服务器的 4 个黄金点是什么?
我的任务是监控 Jenkins E2E 服务器的 4 个黄金信号。我已经配置了延迟、网络吞吐量和错误。请让我知道我应该包括哪些指标以及其他 3 个指标?
prometheus - 如何测量滚动窗口的错误预算消耗?
我有一个应用程序的 SLO,其中 95% 的服务响应时间必须在 24 小时滚动窗口内小于 450 毫秒。我每 60 秒采样一次。通常,我的“当前服务水平”约为 96-97%。如果服务水平低于 95%,我的错误率 > 5%,因此消耗率 > 1。消耗率 > 1 意味着我将在 24 小时内消耗所有错误预算。然而,由于这是一个滚动窗口,我每分钟都在计算服务水平、错误率、消耗率等,即使我以 94% 的速度运行,也只是“恒定的 94%”,并且我的错误预算每60 秒。
我正在努力理解和准确衡量并显示预算耗尽。
prometheus - 未找到 Grafana 数据源
每个人。我开始使用 grafana 使其成为监控我们基础设施的一站式仪表板。我有多个 prometheus 源,并且能够成功地将它们添加到 grafana,但是,查询无法通过代理调用访问数据源。以下是我用于配置数据源的代码以及无法在代理调用中找到数据源的错误。
配置
错误:
grafana.ini
如果有人可以提供帮助,请不胜感激
devops - Micrometer 库中的此类“UniversalScalabilityLawForecast”是什么以及在哪里?
我正在阅读“带有 Java 微服务的 SRE”(O'reilly)
“USL 预测是 Micrometer 中“派生的”Meter 的一种形式,可以如例 4-39 所示启用。”
示例 4-39。Micrometer 中的通用可伸缩性定律预测配置
千分尺库中的此类“UniversalScalabilityLawForecast”是什么以及在哪里?我找不到它 github 存储库,谷歌搜索,没有运气。
请帮帮我。
html - 页面加载后会影响 TTFB 吗?
在服务器端渲染的情况下,我们知道 TTFB 是从请求开始到响应开始之间的时间。我的问题是,如果页面由于过滤器或其他原因而在视觉上更新但不是完整的页面加载并且 URL 也相同,那么 TTFB 是否会受到影响。
仅请求部分页面资源时如何测量 TTFB
amazon-web-services - 将 ElasticSearch 5.x 迁移到 OpenSearch 1.0
我的问题是架构问题。
我必须将一个 ElasticSearch 5.6 集群迁移到 OpenSearch 1.0。有几种方法可以迁移它,但是,我必须为我的生产环境找到更好的方法。
需要考虑的几点:
- 我的索引是在 5.6 版本中创建的,因此,我必须更新它们。
考虑迁移的一些选项:
- 在版本 7.10 中创建一个 Elastic 集群,使用“从远程集群重新索引”(https://www.elastic.co/guide/en/elasticsearch/reference/7.10/reindex-upgrade-remote.html )将我的索引迁移到该集群),这样,我将更新我的索引,然后,我将使用备份/恢复迁移到 OpenSearch。
- 我可以将集群 5.6 更新到 6.x 版并运行“重新索引 API”(https://www.elastic.co/guide/en/elasticsearch/reference/6.8/reindex-upgrade.html),然后在此之后,将迁移到 OpenSearch 1.0。
有什么方法可以将 5.x 版本的索引迁移到 OpenSearch 1.0 直接实现重新索引?如果没有,我可以考虑迁移它的更好方法是什么?
devops - Flink 1.14.3 - [问题] 无法绑定到 /0.0.0.0:6123
我们使用的是 1.14.3 版本的 flink,当我们尝试运行 Job manager 时,我们遇到了异常。
我尝试在 flink-conf.yml 文件中输入 akka.remote.netty.tcp.hostname = "127.0.0.1" 甚至用主机名更新 IP。但没有帮助。
google-cloud-platform - 对于基于 SLO 的监控,使用 Prometheus 与 Google Cloud Monitoring 相比有哪些优势?
我正在创建基于 SLO 的监控。到目前为止,我一直在使用 Google Cloud Monitoring 解决方案,例如 Dashboards、Alerting 和 Uptime Checks。
我注意到 GCP 现在为 Prometheus 提供了托管服务。
我的问题是使用 Prometheus(不仅是 Google 管理的)进行监控有什么优势。Prometheus 有什么可以实现而 Google Cloud Monitoring 无法实现的吗?