我是机器学习领域的新手(即使我觉得它非常有趣),我想开始一个小项目,在那里我可以应用一些东西。
假设我有一个人员数据集,其中每个人有 N 个不同的属性(只有离散值,每个属性几乎可以是任何东西)。
我想找到表现出相同行为的人群,即他们的属性具有相似模式(“相似”)。
你会怎么做?有什么想法可以让我开始吗?
我正在考虑使用 PCA,因为我们可以有任意数量的维度,这可能有助于减少它。K-均值?我不确定在这种情况下。关于什么最适合这种情况的任何想法?
我确实知道如何编写所有这些算法,但我真的缺少一些现实世界的经验来知道在这种情况下应用什么。