0

我有一个带有 BINARY 用户/项目特征矩阵的大型数据集:

  1. 我需要对用户和项目进行聚类。无论如何在 Mahout 中同时执行它们吗?
  2. 更重要的是,如果我使用对数似然作为相似性度量,哪些聚类算法实际上会支持这种距离度量来聚类数据?
4

1 回答 1

1

不,用户和项目的聚类是单独的过程。虽然在精神上它是完全相同的过程,只是应用了两种不同的方式。

如果您想在 Mahout 中获得更具体的答案,则必须详细说明您正在使用的代码的哪些部分,因为有几个不同的部分涉及集群。

项目中有一些凝聚聚类部分,适用于任何相似性度量。我知道的其他实现肯定是“k-means”种类,假设一个连续的向量空间而不是超过 {0,1} 的向量。我认为你需要一种 k-medoids 算法,而这不在我所知道的项目中。

于 2012-11-23T20:20:03.730 回答