我使用 mahout 进行文本聚类
我的电脑设备和软件在下面
服务器:
CPU:Intel Xeon E5-2620 2GHz,内存:64GB
软件:
VirtualBox 上的 ubuntu-12.4.1
hadoop-1.0.4、mahout-0.7
我使用树冠算法来聚类 80000 txt。但是它运行时间很长,只需要两三个星期就可以完成,但我发现 CPU 利用率只有 20% 以下。
我发现有人也有这个问题, http: //mail-archives.apache.org/mod_mbox/mahout-user/201212.mbox/%3C7959565186420075099@unknownmsgid%3E#archives
但是我仍然不知道如何加速它,另一方面,我是否丢失了一些参数设置?还是服务器没有强大的功能来运行这个工作?