我想知道收集与某个 Hadoop 集群配置有关的数据的“标准”方法是什么,这意味着,获得关于某个集群配置运行速度有多快的具体证据,例如吞吐量、带宽以及我应该考虑的其他任何内容。我目前正在查看并试图了解 TestDFSIO,但我不禁认为这并没有完全分析 Hadoop 性能(我在某处读到它不考虑某些开销)。
如果有帮助,我当前的 hadoop 集群设置是 2 台服务器,上面有 KVM,一台有 2 个 VM,另一个有 1 个 VM。我想将此配置的性能与更简单的 hadoop 配置(不带 KVM 或 VM)进行比较。