这是我们的要求。
测量接近实时的平均网页延迟(托管在多个 AWS ecs 实例上)
http 200 以外的错误状态不会飙升我们想知道是否有问题。
像弹性搜索这样的单独服务没有关闭
我们正在哨兵或弹性搜索中记录一些严重错误(例如购买失败),并想知道它是否没有飙升
有一个单一的监控用户界面,并在满足某些条件时发出警报,这很好。
我不知道我们是否需要自己构建服务,我希望我们可以使用一些现成的服务。
我们应该在哪里收集数据?
我一直在看
- elasticsearch,kibana(缺少警报)
- statsd(似乎我们需要单独的前端进行可视化)
- netdata(看起来更像是系统监控工具而不是数据聚合工具)
- munin,nagios(不确定这些是否是我们需要的)