1

假设我在 Mahout 中有一个用户/项目特征矩阵,并且我已经导出了用户的对数似然相似性并确定了三个用户集群。现在我有一个带有一组项目(相同格式和相同项目集)的新用户,如何在不重新计算相似度矩阵和重新聚类过程的情况下为新用户分配这三个集群中的一个?问题是如果我使用当前的集群质心并计算对数似然相似度或任何距离度量,质心不再是二元的。如果我使用 k 中位数,它们就有可能全为零。解决这个问题的好方法是什么?您是否推荐使用任何模型基础聚类,特别是在 MAhout 中?

4

1 回答 1

1

为集群训练分类器怎么样?

为避免出现零点,您可以改用 k-medoids。这里的关键区别在于 k-medoids将从您的数据集中选择最中心的对象,因此它实际上与您的数据对象具有相同的稀疏性。

由于我不使用 Mahout,我不知道 Mahout 中是否有此功能。据我所知,它比 k-means 或 k-median 的计算密集度更高。

于 2012-11-24T11:13:47.727 回答