0

我有一个产品,我想为其创建一个仪表板,以显示其可用性/正常运行时间随时间的变化并显示任何中断。

具体来说,我正在寻找

  • 能够报告有关服务正常运行时间的历史信息
  • 提供任何服务中断的详细信息

该产品在一组 linux 服务器上运行,并连接到在单独实例上运行的数据库,我们还有一些运行夜间批处理作业的专用实例。我的系统还依赖一些外部服务为特定客户提供附加功能。Redis 缓存也用于为多个客户缓存数据。

我们将上述所有设置(应用程序服务器、数据库、作业服务器、redis 缓存等)复制到大型客户的专用集群中。小客户被放在其中一个共享集群上以保持低成本。

目前,我们仅在应用服务器上运行健康检查,并在一个简单的 HTML 页面中提供该信息。这是最终用户/客户和支持团队的转到页面。

由于该产品是使用多个系统/服务构建的,因此我们当前的 HTML 页面经常显示系统已启动并运行良好,但可能会遇到其某些组件或外部服务的问题。

当前的健康检查使用简单的 HTTP 请求并查找 200 状态代码,此检查每分钟运行一次,我们将这些数据绘制成一个简单的图表以显示过去 30 天。我们还显示了带有时间戳和手动添加的其他静态信息的中断列表。

我们希望构建一个更强大的解决方案,该解决方案监控的内容远不止 HTTP 端口,并且我们可以在其中获得更多详细信息,例如系统的哪个部分存在问题以及这些问题如何影响系统以及哪些客户受到影响。

感谢任何指导或帮助。我们更喜欢使用开源工具构建解决方案,因为我们没有太多预算。目标是为我已经超负荷的团队成员改善事情。

4

1 回答 1

0

鉴于我不了解您的产品,我不确定这对于您的设置是否过大,但请查看 ELK 堆栈,看看您是否可以使用一些组件或至少从那里获得一些想法:

于 2021-01-06T09:05:52.960 回答