machine-learning - 您将使用什么算法来基于人员属性进行聚类？

Question

我是机器学习领域的新手（即使我觉得它非常有趣），我想开始一个小项目，在那里我可以应用一些东西。

假设我有一个人员数据集，其中每个人有 N 个不同的属性（只有离散值，每个属性几乎可以是任何东西）。

我想找到表现出相同行为的人群，即他们的属性具有相似模式（“相似”）。

你会怎么做？有什么想法可以让我开始吗？

我正在考虑使用 PCA，因为我们可以有任意数量的维度，这可能有助于减少它。K-均值？我不确定在这种情况下。关于什么最适合这种情况的任何想法？

我确实知道如何编写所有这些算法，但我真的缺少一些现实世界的经验来知道在这种情况下应用什么。

score 3 · Accepted Answer

使用 n 维属性向量的 K-means 是一种合理的入门方式。您可能想使用距离度量来查看它如何影响结果。

score 2 · Accepted Answer

几乎任何聚类算法的第一步都是找到合适的距离函数。许多算法，例如DBSCAN可以用这个距离函数参数化（至少在一个体面的实现中。当然有些只支持欧几里得距离......）。

所以从考虑如何测量对象相似度开始吧！

score 2 · Accepted Answer

在我看来，您还应该尝试期望最大化算法（也称为EM）。另一方面，在使用 PCA 时必须小心，因为该算法可能会减少与聚类相关的维度。

3 回答 3