hadoop - Mahout 集群中的 CPU 利用率

Question

我使用 mahout 进行文本聚类

我的电脑设备和软件在下面

服务器：
CPU：Intel Xeon E5-2620 2GHz，内存：64GB

软件：
VirtualBox 上的 ubuntu-12.4.1
hadoop-1.0.4、mahout-0.7

我使用树冠算法来聚类 80000 txt。但是它运行时间很长，只需要两三个星期就可以完成，但我发现 CPU 利用率只有 20% 以下。

但是我仍然不知道如何加速它，另一方面，我是否丢失了一些参数设置？还是服务器没有强大的功能来运行这个工作？

score 0 · Accepted Answer

Hadoop 和 Mahout 适用于多台计算机。在单个主机上，针对此类操作优化的软件可能会快得多。

Hadoop（和 Mahout）管理太大而无法放入单个计算机内存的数据。这需要将数据存储在文件中并通过网络传输到其他主机。

现在，如果您采用这种方法 - 重复写入中间结果 - 而无需这样做，那么您当然会比在内存中执行所有操作要慢。

由于您的 CPU 未完全使用，您可能会猜到其他地方一定存在瓶颈。看看你的磁盘 IO。这可能是目前您的限制因素。

1 回答 1