0

我想知道收集与某个 Hadoop 集群配置有关的数据的“标准”方法是什么,这意味着,获得关于某个集群配置运行速度有多快的具体证据,例如吞吐量、带宽以及我应该考虑的其他任何内容。我目前正在查看并试图了解 TestDFSIO,但我不禁认为这并没有完全分析 Hadoop 性能(我在某处读到它不考虑某些开销)。

如果有帮助,我当前的 hadoop 集群设置是 2 台服务器,上面有 KVM,一台有 2 个 VM,另一个有 1 个 VM。我想将此配置的性能与更简单的 hadoop 配置(不带 KVM 或 VM)进行比较。

4

1 回答 1

1

还有其他基准,特别是 TeraSort,它将衡量您的集群改组性能,但我不会说它们提供的信息量太大。恕我直言,分析 hadoop 集群有点像分析 JVM - 如果没有具体的应用程序就没有多大意义。
. 我想说的是,应该根据您要在其上运行的某些 MR 作业来评估 hadoop 集群的性能。一些作业将受 IO 限制,其余的系统性能将不相关。有些会在 Map Stage 中受 CPU 限制,其余的并不重要,等等。

于 2012-08-13T19:48:34.157 回答