data-mining - 集群二进制数据

翻译自：https://stackoverflow.com/questions/13534866 2012-11-23T19:34:24.500

652 次

0

我有一个带有 BINARY 用户/项目特征矩阵的大型数据集：

我需要对用户和项目进行聚类。无论如何在 Mahout 中同时执行它们吗？
更重要的是，如果我使用对数似然作为相似性度量，哪些聚类算法实际上会支持这种距离度量来聚类数据？

1 回答 1

1

不，用户和项目的聚类是单独的过程。虽然在精神上它是完全相同的过程，只是应用了两种不同的方式。

如果您想在 Mahout 中获得更具体的答案，则必须详细说明您正在使用的代码的哪些部分，因为有几个不同的部分涉及集群。

项目中有一些凝聚聚类部分，适用于任何相似性度量。我知道的其他实现肯定是“k-means”种类，假设一个连续的向量空间而不是超过 {0,1} 的向量。我认为你需要一种 k-medoids 算法，而这不在我所知道的项目中。

于 2012-11-23T20:20:03.730 回答