1

我是机器学习领域的新手(即使我觉得它非常有趣),我想开始一个小项目,在那里我可以应用一些东西。

假设我有一个人员数据集,其中每个人有 N 个不同的属性(只有离散值,每个属性几乎可以是任何东西)。

我想找到表现出相同行为的人群,即他们的属性具有相似模式(“相似”)。

你会怎么做?有什么想法可以让我开始吗?

我正在考虑使用 PCA,因为我们可以有任意数量的维度,这可能有助于减少它。K-均值?我不确定在这种情况下。关于什么最适合这种情况的任何想法?

我确实知道如何编写所有这些算法,但我真的缺少一些现实世界的经验来知道在这种情况下应用什么。

4

3 回答 3

3

使用 n 维属性向量的 K-means 是一种合理的入门方式。您可能想使用距离度量来查看它如何影响结果。

于 2012-04-14T03:01:16.967 回答
2

几乎任何聚类算法的第一步都是找到合适的距离函数。许多算法,例如DBSCAN可以用这个距离函数参数化(至少在一个体面的实现中。当然有些只支持欧几里得距离......)。

所以从考虑如何测量对象相似度开始吧!

于 2012-04-14T06:16:55.240 回答
2

在我看来,您还应该尝试期望最大化算法(也称为EM)。另一方面,在使用 PCA 时必须小心,因为该算法可能会减少与聚类相关的维度。

于 2012-04-15T09:56:31.140 回答