hadoop - 使用 Collectl 监控 Hadoop 集群

Question

我正在评估各种系统监控工具，以使用其中一种来监控我的 hadoop 集群。我印象深刻的工具之一是collectl。几天以来我一直在玩它。

我正在努力寻找在使用 colmux 时如何聚合由 collectl 捕获的指标？

比如说，我的 hadoop 集群中有 10 个节点，每个节点都将 collectl 作为服务运行。使用 colmux，我可以在单个视图（单行和多行格式）中查看每个节点的性能指标。伟大的！

但是，如果我正在考虑集群中所有节点上的 CPU、IO 等的聚合怎么办。也就是说，我想通过将每个节点的性能指标汇总为相应的数字来了解我的集群作为一个整体的性能，从而为我提供集群级别的指标而不是节点级别的指标。

任何帮助是极大的赞赏。谢谢！

score 1 · Accepted Answer

我已经在邮件列表中回答了这个问题，但为了那些不在邮件列表中的人的利益，我会在这里重复一遍。

这是一个很酷的主意。因此，如果我理解正确，您可能会在底部看到某种总线？我总是可以添加到我的愿望清单中，但没有承诺。但是我想如果您不介意自己做一些额外的工作，我也可能有一个解决方案；）顺便说一句-我可以假设您已经安装了 readkey 以便您可以使用箭头键更改排序列吗？

如果您使用--noesc 运行colmux，它将更多地退出全屏，并简单地将所有内容打印为滚动输出。如果您还包括“--lines 99999”（或一些大数字），它将打印所有远程系统的所有输出，这样您就不会错过任何内容。最后，您可以通过 perl、python、bash 或任何您喜欢的脚本工具来管道输出，并自己进行总计。然后，每当您看到一个新的标头飞过时，打印总数并将计数器重置为 0。您甚至可以添加时间戳，甚至最终将其设为您自己的开源项目。我打赌其他人也会觉得它很有用。

-标记

hadoop - 使用 Collectl 监控 Hadoop 集群

1 回答 1

Related

Reference