linux - 我应该在 hadoop 用户+系统时间或在 hadoop 作业计数器中花费的总 cpu 时间中使用哪一个来进行基准测试？

Question

在这个回答中的一个陈述中写着“相同的作业在相同的数据上运行，但在一个 20 节点集群上，然后是 200 节点集群。总体而言，两个集群将使用相同数量的 CPU 时间”有人可以解释一下吗？

我用time命令来测量实时。有时我得到比实际实时更多的 cpu 时间（hadoop 计数器），反之亦然。我知道实时测量实际时钟时间，它可以大于或小于user+sys.

我仍然没有得到 hadoop 中的总 cpu 时间测量值。关于时间命令，这个答案写的最好与用户+系统一起进行基准测试。

total cpu time taken by process = user+sys那么它应该与hadoop作业计数器的总cpu时间相同。但我得到了不同的结果。
如果我在 hadoop user+sys 或总 cpu 时间（hadoop 计数器）中执行某种基准测试任务，我应该考虑哪个时间？

注意：在 apache hive基准测试中，他们考虑了实时，但它也会受到其他进程的影响。所以我不能考虑实时。

score 1 · Accepted Answer

same job running over the same data but on one 20 node cluster, then a 200 node cluster.Overall, the same amount of CPU time will be used on both clusters

这意味着如果一个作业N在 20 个节点的集群上需要M一个小时，而在一个 200 个节点的集群上需要几个小时，那么20 * N应该等于M * 200

实时应该是你的选择，但正如你上面所说，这个值可能会相应地改变，所以你应该至少尝试3次，然后计算平均值作为最终结果。

linux - 我应该在 hadoop 用户+系统时间或在 hadoop 作业计数器中花费的总 cpu 时间中使用哪一个来进行基准测试？

1 回答 1

Related

Reference