matlab - Matlab：具有预定义总体的 K 均值聚类

Question

我试图区分两个人群。每个总体都是一个 NxM 矩阵，其中 N 固定在两者之间，M 长度可变（N=每次运行的列特定属性，M=运行次数）。我已经研究过 PCA 和 K-means 来区分两者，但我对最佳实践感到好奇。

据我所知，在 K-means 中，没有初始“校准”来选择集群，以便区分已知的双峰群体。它只是将距离最小化并将数据分配给任意数量的人口。我想告诉聚类算法，我想要两个群体分开的最佳拟合。然后我可以使用我从未来数据集的初始聚类中获得的拟合。任何帮助、示例代码或阅读材料将不胜感激。

-R

score 0 · Accepted Answer

这真的取决于数据。但只是为了让您知道 K-means 确实会陷入局部最小值，所以如果您想使用它，请尝试从不同的随机起点运行它。PCA 也可能很有用，但与任何其他光谱聚类方法一样，您对聚类过程的控制要少得多。我建议您使用具有多个随机起点的 k-means 对数据进行聚类，并且 c 它是如何工作的，然后您可以使用 K-NN 预测和学习每个新样本（我不知道它是否对您的情况有用） .

检查惰性学习器和K-NN进行预测。

score 0 · Accepted Answer

K-means 和 PCA 通常用于无监督学习问题，即您拥有单批数据并希望找到一些更简单的方法来描述它的问题。原则上，您可以对您的数据运行 K-means（K=2），然后评估您的两类数据与该算法找到的数据集群的匹配程度（注意：您可能需要多次启动） .

听起来你有一个监督学习问题：你有一个训练数据集，它已经被划分为两个类。在这种情况下，k-最近邻（如@amas 所述）可能是最类似于 k-means 的方法；然而，支持向量机也可能是一种有吸引力的方法。

我经常参考Trevor Hastie（作者）、Robert Tibshirani（作者）、Jerome Friedman（作者）的 The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition（Springer Series in Statistics ）。

matlab - Matlab：具有预定义总体的 K 均值聚类

2 回答 2

Related

Reference