在这个回答中的一个陈述中写着“相同的作业在相同的数据上运行,但在一个 20 节点集群上,然后是 200 节点集群。总体而言,两个集群将使用相同数量的 CPU 时间”有人可以解释一下吗?
我用time
命令来测量实时。有时我得到比实际实时更多的 cpu 时间(hadoop 计数器),反之亦然。我知道实时测量实际时钟时间,它可以大于或小于user+sys
.
我仍然没有得到 hadoop 中的总 cpu 时间测量值。关于时间命令,这个答案写的最好与用户+系统一起进行基准测试。
total cpu time taken by process = user+sys
那么它应该与hadoop作业计数器的总cpu时间相同。但我得到了不同的结果。- 如果我在 hadoop user+sys 或总 cpu 时间(hadoop 计数器)中执行某种基准测试任务,我应该考虑哪个时间?
注意:在 apache hive基准测试中,他们考虑了实时,但它也会受到其他进程的影响。所以我不能考虑实时。