我有一个小型 bosun 设置,它从众多服务中收集指标,我们计划在云上扩展这些服务。这将意味着更多数据进入 bosun,因此 bosun 的负载/效率/规模受到影响。
由于网络开销以及发生故障,我害怕丢失数据。
我正在寻找任何有关 bosun 的性能基准报告,或任何有关基准测试/测试 bosun 的规模和 HA 的输入。
此外,任何有关扩大 bosun 规模的良好做法的投入都会有所帮助。
我目前的想法是将大量 bosun 二进制文件作为一个集群运行,并由分布式 opentsdb 设置支持。此外,我认为是否值得将一些 bosun 执行器作为 scollector 数据的普通“收集器”(使用bosun -n
命令)运行,而有些则只计算警报。
这种方法的问题在于,可能会从多个 bosun 实例触发相同的警报(在没有选项的情况下运行-n
)。有没有更好的方法来重复警报?