我正在评估各种系统监控工具,以使用其中一种来监控我的 hadoop 集群。我印象深刻的工具之一是collectl。几天以来我一直在玩它。
我正在努力寻找在使用 colmux 时如何聚合由 collectl 捕获的指标?
比如说,我的 hadoop 集群中有 10 个节点,每个节点都将 collectl 作为服务运行。使用 colmux,我可以在单个视图(单行和多行格式)中查看每个节点的性能指标。伟大的!
但是,如果我正在考虑集群中所有节点上的 CPU、IO 等的聚合怎么办。也就是说,我想通过将每个节点的性能指标汇总为相应的数字来了解我的集群作为一个整体的性能,从而为我提供集群级别的指标而不是节点级别的指标。
任何帮助是极大的赞赏。谢谢!