-1

在 SRE 上下文中,基于症状和原因的监测是什么意思?为什么它如此重要?哪些工具用于此类监控?

4

1 回答 1

2

症状与原因


你的监控系统应该解决两个问题:什么坏了,为什么?

“什么坏了”表示症状;“为什么”表示(可能是中间的)原因。下表列出了一些假设的症状和相应的原因。

“什么”与“为什么”是编写具有最大信号和最小噪声的良好监控的最重要区别之一。

例子

+--------------------------------------------------------+-----------------------------------------------------------------------------------------------------------------+
|                        Symptom                         |                                                      Cause                                                      |
+--------------------------------------------------------+-----------------------------------------------------------------------------------------------------------------+
| I’m serving HTTP 500s or 404s                          | Database servers are refusing connections                                                                       |
|--------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------|
| My responses are slow                                  | CPUs are overloaded by a bogosort, or an Ethernet cable is crimped under a rack, visible as partial packet loss |
|--------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------|
| Users in Antarctica aren’t receiving animated cat GIFs | Your Content Distribution Network hates scientists and felines, and thus blacklisted some client IPs            |
|--------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------|
| Private content is world-readable                      | A new software push caused ACLs to be forgotten and allowed all requests                                        |
+--------------------------------------------------------+-----------------------------------------------------------------------------------------------------------------+

资源

用于监控的工具取决于您的平台、您想要监控的内容和方式。例如,Azure Monitor适用于 Azure 中托管的应用程序和基础设施,Amazon CloudWatch适用于 AWS 中的应用程序和基础设施,等等。

于 2020-09-05T13:29:58.223 回答