0

我使用 mahout 进行文本聚类

我的电脑设备和软件在下面

服务器:
CPU:Intel Xeon E5-2620 2GHz,内存:64GB

软件:
VirtualBox 上的 ubuntu-12.4.1
hadoop-1.0.4、mahout-0.7

我使用树冠算法来聚类 80000 txt。但是它运行时间很长,只需要两三个星期就可以完成,但我发现 CPU 利用率只有 20% 以下。

我发现有人也有这个问题, http: //mail-archives.apache.org/mod_mbox/mahout-user/201212.mbox/%3C7959565186420075099@unknownmsgid%3E#archives

但是我仍然不知道如何加速它,另一方面,我是否丢失了一些参数设置?还是服务器没有强大的功能来运行这个工作?

4

1 回答 1

0

Hadoop 和 Mahout 适用于多台计算机。在单个主机上,针对此类操作优化的软件可能会快得多。

Hadoop(和 Mahout)管理太大而无法放入单个计算机内存的数据。这需要将数据存储在文件中并通过网络传输到其他主机。

现在,如果您采用这种方法 - 重复写入中间结果 - 而无需这样做,那么您当然会比在内存中执行所有操作要慢。

由于您的 CPU 未完全使用,您可能会猜到其他地方一定存在瓶颈。看看你的磁盘 IO。这可能是目前您的限制因素。

于 2013-01-15T07:37:54.307 回答