0

我试图区分两个人群。每个总体都是一个 NxM 矩阵,其中 N 固定在两者之间,M 长度可变(N=每次运行的列特定属性,M=运行次数)。我已经研究过 PCA 和 K-means 来区分两者,但我对最佳实践感到好奇。

据我所知,在 K-means 中,没有初始“校准”来选择集群,以便区分已知的双峰群体。它只是将距离最小化并将数据分配给任意数量的人口。我想告诉聚类算法,我想要两个群体分开的最佳拟合。然后我可以使用我从未来数据集的初始聚类中获得的拟合。任何帮助、示例代码或阅读材料将不胜感激。

-R

4

2 回答 2

0

这真的取决于数据。但只是为了让您知道 K-means 确实会陷入局部最小值,所以如果您想使用它,请尝试从不同的随机起点运行它。PCA 也可能很有用,但与任何其他光谱聚类方法一样,您对聚类过程的控制要少得多。我建议您使用具有多个随机起点的 k-means 对数据进行聚类,并且 c 它是如何工作的,然后您可以使用 K-NN 预测和学习每个新样本(我不知道它是否对您的情况有用) .

检查惰性学习器和K-NN进行预测。

于 2012-07-31T00:05:41.163 回答
0

K-means 和 PCA 通常用于无监督学习问题,即您拥有单批数据并希望找到一些更简单的方法来描述它的问题。原则上,您可以对您的数据运行 K-means(K=2),然后评估您的两类数据与该算法找到的数据集群的匹配程度(注意:您可能需要多次启动) .

听起来你有一个监督学习问题:你有一个训练数据集,它已经被划分为两个类。在这种情况下,k-最近邻(如@amas 所述)可能是最类似于 k-means 的方法;然而,支持向量机也可能是一种有吸引力的方法。

我经常参考Trevor Hastie(作者)、Robert Tibshirani(作者)、Jerome Friedman(作者)的 The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition(Springer Series in Statistics )。

于 2012-07-31T03:33:23.853 回答