matrix - 在非常大的稀疏矩阵上聚类？

Question

我正在尝试在一个非常大的矩阵上进行一些（k-means）聚类。

该矩阵大约有 500000 行 x 4000 列，但非常稀疏（每行只有几个“1”值）。我想获得大约 2000 个集群。

我有两个问题： - 有人可以推荐一个开源平台或工具来做到这一点（也许使用 k-means，也许有更好的东西）？- 我怎样才能最好地估计算法需要完成的时间？我尝试过一次 weka，但几天后就放弃了这项工作，因为我不知道需要多少时间。

谢谢！

score 2 · Accepted Answer

2

于 2010-08-26T23:00:13.803 回答

score 1 · Accepted Answer

对于您的情况，我想您的问题仅在于输入的大小。

我建议将“cluto”作为大型稀疏数据集的好工具。它是用 C 编写的。我已经尝试了大约 1700 万行和大约 400 列。而且它工作得很快。

score 0 · Accepted Answer

您可以在 R 中尝试 sparcl 包，它实现了稀疏 k-means 和层次聚类。不那么容易理解艰难

3 回答 3