elasticsearch - 监控多个服务的性能和健康状况

Question

这是我们的要求。

测量接近实时的平均网页延迟（托管在多个 AWS ecs 实例上）

http 200 以外的错误状态不会飙升我们想知道是否有问题。

像弹性搜索这样的单独服务没有关闭

我们正在哨兵或弹性搜索中记录一些严重错误（例如购买失败），并想知道它是否没有飙升

有一个单一的监控用户界面，并在满足某些条件时发出警报，这很好。

我不知道我们是否需要自己构建服务，我希望我们可以使用一些现成的服务。

我们应该在哪里收集数据？
我一直在看

elasticsearch，kibana（缺少警报）
statsd（似乎我们需要单独的前端进行可视化）
netdata（看起来更像是系统监控工具而不是数据聚合工具）
munin，nagios（不确定这些是否是我们需要的）

score 0 · Accepted Answer

看起来 DataDog 对您来说可能是一个很好的解决方案。您可以使用它来监控 Elasticsearch，它有一个 APM 产品，您可以将其集成到您的应用程序中以监控其性能。如果您使用Honeybadger监控您的应用程序，您也可以将这些错误的指标发送到 DataDog。

score 0 · Accepted Answer

Zabbix可以很好的处理其中的大部分。

使用“网络场景”，网页延迟可以通过"web.test.in"...测量"web.test.time"
还会"web.test.rspcode"向您显示 HTTP 响应代码，然后在需要时触发警报（例如：200、400、401、404、500、503...）
您可以使用带有额外设置的官方模板轻松监控弹性搜索zabbix_agentd
这可能需要其他专用服务：Sentry、EFK 堆栈、elastalert来归档目标
Zabbix 有自己的集中式 UI（支持代理）和任何类型的警报（显示在仪表板、电子邮件、Slack、SMS、PagerDuty...）

elasticsearch - 监控多个服务的性能和健康状况

2 回答 2

Related

Reference