3

我正在尝试在一个非常大的矩阵上进行一些(k-means)聚类。

该矩阵大约有 500000 行 x 4000 列,但非常稀疏(每行只有几个“1”值)。我想获得大约 2000 个集群。

我有两个问题: - 有人可以推荐一个开源平台或工具来做到这一点(也许使用 k-means,也许有更好的东西)?- 我怎样才能最好地估计算法需要完成的时间?我尝试过一次 weka,但几天后就放弃了这项工作,因为我不知道需要多少时间。

谢谢!

4

3 回答 3

2

http://lucene.apache.org/mahout/

于 2010-08-26T23:00:13.803 回答
1

对于您的情况,我想您的问题仅在于输入的大小。

我建议将“cluto”作为大型稀疏数据集的好工具。它是用 C 编写的。我已经尝试了大约 1700 万行和大约 400 列。而且它工作得很快。

Cluto 库的链接

于 2013-06-16T21:17:22.943 回答
0

您可以在 R 中尝试 sparcl 包,它实现了稀疏 k-means 和层次聚类。不那么容易理解 艰难

于 2014-08-08T17:00:14.233 回答