2

这个回答中的一个陈述中写着“相同的作业在相同的数据上运行,但在一个 20 节点集群上,然后是 200 节点集群。总体而言,两个集群将使用相同数量的 CPU 时间”有人可以解释一下吗?

我用time命令来测量实时。有时我得到比实际实时更多的 cpu 时间(hadoop 计数器),反之亦然。我知道实时测量实际时钟时间,它可以大于或小于user+sys.

我仍然没有得到 hadoop 中的总 cpu 时间测量值。关于时间命令,这个答案写的最好与用户+系统一起进行基准测试。

  1. total cpu time taken by process = user+sys那么它应该与hadoop作业计数器的总cpu时间相同。但我得到了不同的结果。
  2. 如果我在 hadoop user+sys 或总 cpu 时间(hadoop 计数器)中执行某种基准测试任务,我应该考虑哪个时间?

注意:在 apache hive基准测试中,他们考虑了实时,但它也会受到其他进程的影响。所以我不能考虑实时。

4

1 回答 1

1

same job running over the same data but on one 20 node cluster, then a 200 node cluster.Overall, the same amount of CPU time will be used on both clusters

这意味着如果一个作业N在 20 个节点的集群上需要M一个小时,而在一个 200 个节点的集群上需要几个小时,那么20 * N应该等于M * 200

实时应该是你的选择,但正如你上面所说,这个值可能会相应地改变,所以你应该至少尝试3次,然后计算平均值作为最终结果。

于 2016-03-06T12:06:37.023 回答