0

这是我们的要求。

  1. 测量接近实时的平均网页延迟(托管在多个 AWS ecs 实例上)

  2. http 200 以外的错误状态不会飙升我们想知道是否有问题。

  3. 像弹性搜索这样的单独服务没有关闭

  4. 我们正在哨兵或弹性搜索中记录一些严重错误(例如购买失败),并想知道它是否没有飙升

  5. 有一个单一的监控用户界面,并在满足某些条件时发出警报,这很好。

我不知道我们是否需要自己构建服务,我希望我们可以使用一些现成的服务。

我们应该在哪里收集数据?
我一直在看

  • elasticsearch,kibana(缺少警报)
  • statsd(似乎我们需要单独的前端进行可视化)
  • netdata(看起来更像是系统监控工具而不是数据聚合工具)
  • munin,nagios(不确定这些是否是我们需要的)
4

2 回答 2

0

看起来 DataDog 对您来说可能是一个很好的解决方案。您可以使用它来监控 Elasticsearch,它有一个 APM 产品,您可以将其集成到您的应用程序中以监控其性能。如果您使用Honeybadger监控您的应用程序,您也可以将这些错误的指标发送到 DataDog。

于 2019-11-09T13:45:29.073 回答
0

Zabbix可以很好的处理其中的大部分。

  • 使用“网络场景”,网页延迟可以通过"web.test.in"...测量"web.test.time"
  • 还会"web.test.rspcode"向您显示 HTTP 响应代码,然后在需要时触发警报(例如:200、400、401、404、500、503...)
  • 您可以使用带有额外设置的官方模板轻松监控弹性搜索zabbix_agentd
  • 这可能需要其他专用服务:Sentry、EFK 堆栈、elastalert来归档目标
  • Zabbix 有自己的集中式 UI(支持代理)和任何类型的警报(显示在仪表板、电子邮件、Slack、SMS、PagerDuty...)
于 2019-11-13T04:12:03.050 回答