问题标签 [sre]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
217 浏览

availability - 我们如何衡量网站的可用性?

要衡量网站/API 的可用性,是否还应考虑依赖关系?例如,假设支付服务已关闭;但购物网站仍然可用。在这里,客户无法完成购买,因为付款已取消。这会影响可用性度量吗?另一个例子是只有少数客户受到影响,但该网站仍可供其他用户使用。这会影响网站的可用性吗?

0 投票
1 回答
124 浏览

sre - 如何以及在哪里学习站点可靠性工程课程?

任何人都可以帮助我在哪里以及如何学习站点可靠性工程课程,我在任何地方都没有得到正确的链接。

我浏览了这个链接 1. https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=2ahUKEwjO8LvN_tHjAhUk6nMBHfy1DAIQFjAAegQIABAB&url=https%3A%2F%2Fwww.coursera.org %2Flearn%2Fsite-reliability-engineering-slos&usg=AOvVaw0inAMNS40toLzK5HFFzC3o

  1. https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=2ahUKEwjO8LvN_tHjAhUk6nMBHfy1DAIQFjABegQILhAB&url=https%3A%2F%2Fcloud.google.com%2Fblog%2Fproducts%2Fdevops- sre%2Fintroducing-a-new-coursera-course-on-site-reliability-engineering&usg=AOvVaw0sxlNjskhQqqOTy_u_PDJD

但这些都没有给出明确的细节。

0 投票
0 回答
107 浏览

performance - 根据 google SRE book 的 SLO 合规性报告

我想创建一个 SLO 合规性报告,如此处所示的 Google SRE 手册:https ://landing.google.com/sre/workbook/chapters/implementing-slos/#slo-compliance-report

如描述所示:括号中的数字表示已达到的目标数量,以及目标总数。

问题:我无法弄清楚他们是如何计算括号中的数字的,以及为什么上面几个服务中的数字都是 1 而最后一个服务的数字大于 1。

我需要有关如何得出这些数字的指导。请帮忙

0 投票
1 回答
365 浏览

continuous-integration - DevOps 和 CI/CD 新手

就像我在标题中所说的那样,我是 DevOps 和 CI/CD 的新手。我没有太多经验(除了在线教程),我正在寻找一个项目(没什么大不了的),它将为所有微服务使用自动化 CI/CD 管道。

问题是,我应该使用什么?有很多可用的工具。Jenkins、CicleCI、TravisCI、DroneCI、GitLabCI、BitbucketCI 等。关于它们是否相同变得非常令人困惑。对于许多小型微服务部署,哪一个最适合与 K8s 并行使用?

对不起,如果这听起来很傻。StackOverflow 上的第一个问题。

0 投票
1 回答
81 浏览

java - 为 Spring Boot 应用程序部署新功能的最佳实践是什么?

我有一个用户太多的 Spring Boot 应用程序,并且我的应用程序有很多传入请求,我应该怎么做才能将新功能部署到应用程序而不会丢失传入的用户请求并实际中断应用程序对客户端的可用性?我想了解我的问题的最佳做法。

0 投票
1 回答
74 浏览

sre - 维护窗口是否燃烧错误预算

维护窗口燃烧错误预算?

示例:假设我还有 1 小时的错误预算。我停止服务以进行计划内维护 30 分钟。错误预算仍然是 1 小时还是 30 分钟?

维护窗口发生在应用程序没有流量时,例如,在一个国家/地区有售的在线零售商的凌晨 3 点到 5 点。

0 投票
1 回答
473 浏览

apache-spark - 使用服务帐号和 IAM 角色管理 dataproc 集群访问

我是云初学者,我想限制我对项目中dataproc cluster给定gcs buckets的访问权限。

可以说我创建了一个service account命名为'data-proc-service-account@my-cloud-project.iam.gserviceaccount.com' ,然后我创建了一个 dataproc 集群并为其分配了服务帐户。

现在我创建了两个名为的 gcs 存储桶

这些存储桶包含一些输入文件,这些文件需要由运行在我的 dataproc 集群上的 spark 作业访问,并且还充当我的 spark 作业可以写入一些输出文件的位置。

我想我必须去编辑我的存储桶权限,如给定链接所示。 编辑存储桶权限

我希望我的 spark 作业只能从这个特定的存储桶中读取文件'gs://my-test-bucket/spark-input-files/'。如果他们正在写入 gcs 存储桶,他们只能写入''gs://my-test-bucket/spark-output-files/'

这里的问题是:(很可能是与SRE资源相关的问题)

需要 data-proc-service-account@my-cloud-project.iam.gserviceaccount.comIAM控制台页面上将所有 IAM 权限添加到我的数据处理服务帐户中。

以及需要为给定的特定存储桶添加哪些所有读/写权限,我认为必须通过添加成员并为其分配正确的权限来配置。(如上面提到的链接所示)

我是否需要将我的数据处理服务帐户添加为成员,并且可以在这两个角色下面添加。这行得通吗?

如果我错过了任何事情或者可以做更好的事情,也请告诉我。

0 投票
1 回答
248 浏览

performance - 基于症状的监测和基于原因的监测是什么意思?

在 SRE 上下文中,基于症状和原因的监测是什么意思?为什么它如此重要?哪些工具用于此类监控?

0 投票
1 回答
48 浏览

google-cloud-platform - 如何避免“正反馈循环过载问题”?

有时在设计可靠系统时,我们会尝试通过在发生故障时添加重试(使用反馈机制)来使系统更可靠。它会导致潜在的过载,因为我们可能会给已经过载的系统增加更多负载。考虑到过载情况,如何进行智能重试?

0 投票
0 回答
47 浏览

google-cloud-platform - GCP UI 中的错误预算是否应该超过 100%?

我刚刚开始在 GCP 中使用 SLO,我的第一个 SLI 似乎正在工作,但是“错误预算”字段远高于 100%。我在网上看到的所有示例都是 100%,而我的似乎在 700.00% 或以上之间浮动到数千个。有没有其他人经历过这个?

我的 SLI 通过 Terraform 配置为“request_based_api”,我正在使用“good_total_ratio”查询,其中我提供了“good_service_filter”和“totaL_service_filter”,它们是基于自定义日志的 textPayload 报告日志条目的自定义日志指标. 我的服务以创建表示开始请求的日志条目的函数开始(因此被 total_service_filter 拾取),服务以 Cloud Build 进程结束,该进程还将日志条目写入表示成功完成的同一日志(因此被 good_service_filter 拾取)。

正如我所说,它似乎正在工作,但由于错误预算如此之高,我不确定。除了 100% 之外,我还没有找到任何示例,这让我怀疑我是否以某种方式搞砸了。