我正在运行 hadoop,并且在集群中有 2 个配置相同的服务器。它们运行相同的任务、相同的配置、相同的一切,并且都完全专用于 hadoop 任务节点(worker)。
我在这个集群中运行的工作是高度 IO 绑定的。
在一台服务器上我看到60-100MB/sec
ofIO
和 a CPU load
,5-10
在另一台服务器上我看到and a (并且即使运行一个简单的 shell 40-60MB/sec
,这个盒子也几乎无法使用)。IO
CPU load of 60-90
我已经运行smartctl
并且没有收到任何磁盘警告。
关于我接下来可以做些什么来确定这些盒子之间的根本区别有什么建议吗?这些结果在许多小时的处理过程中是一致的。