我试图区分两个人群。每个总体都是一个 NxM 矩阵,其中 N 固定在两者之间,M 长度可变(N=每次运行的列特定属性,M=运行次数)。我已经研究过 PCA 和 K-means 来区分两者,但我对最佳实践感到好奇。
据我所知,在 K-means 中,没有初始“校准”来选择集群,以便区分已知的双峰群体。它只是将距离最小化并将数据分配给任意数量的人口。我想告诉聚类算法,我想要两个群体分开的最佳拟合。然后我可以使用我从未来数据集的初始聚类中获得的拟合。任何帮助、示例代码或阅读材料将不胜感激。
-R
我试图区分两个人群。每个总体都是一个 NxM 矩阵,其中 N 固定在两者之间,M 长度可变(N=每次运行的列特定属性,M=运行次数)。我已经研究过 PCA 和 K-means 来区分两者,但我对最佳实践感到好奇。
据我所知,在 K-means 中,没有初始“校准”来选择集群,以便区分已知的双峰群体。它只是将距离最小化并将数据分配给任意数量的人口。我想告诉聚类算法,我想要两个群体分开的最佳拟合。然后我可以使用我从未来数据集的初始聚类中获得的拟合。任何帮助、示例代码或阅读材料将不胜感激。
-R
K-means 和 PCA 通常用于无监督学习问题,即您拥有单批数据并希望找到一些更简单的方法来描述它的问题。原则上,您可以对您的数据运行 K-means(K=2),然后评估您的两类数据与该算法找到的数据集群的匹配程度(注意:您可能需要多次启动) .
听起来你有一个监督学习问题:你有一个训练数据集,它已经被划分为两个类。在这种情况下,k-最近邻(如@amas 所述)可能是最类似于 k-means 的方法;然而,支持向量机也可能是一种有吸引力的方法。
我经常参考Trevor Hastie(作者)、Robert Tibshirani(作者)、Jerome Friedman(作者)的 The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(Springer Series in Statistics )。