machine-learning - 比 k-mean 聚类更准确的方法

Question

在径向基函数网络（RBF 网络）中，选择隐藏层中的所有原型（RBF 函数的中心向量）。此步骤可以通过多种方式执行：

智能选择原型的方法之一是在我们的训练集上执行 k-mean 聚类，并使用聚类中心作为原型。我们都知道，k-mean 聚类的特点是简单（它很快）但不是很准确。

这就是为什么我想知道比 k-mean 聚类更准确的另一种方法是什么？

任何帮助将不胜感激。

score 2 · Accepted Answer

存在几种 k-means 变体：k-median、围绕 Medoids 的分区、模糊 C-Means 聚类、使用期望最大化算法训练的高斯混合模型、k-means++ 等。

当我的数据集包含一些“异常值”（具有与其他值非常不同的值的噪声）并且我不希望中心受到这些数据的影响时，我使用 PAM（围绕 Medoid 进行分区）以便更准确。在 PAM 的情况下，中心称为 Medoid。

score 1 · Accepted Answer

就 K-Means 而言，您可以在样本上运行它多次（例如 100 次），然后选择具有最小 K-Means 标准输出（平方和每个实体与其各自质心之间的欧几里得距离）。

您还可以使用一些初始化算法（想到智能 K-Means，但您也可以在 Google 上搜索 K-Means++）。您可以在 AK Jain 的一篇名为 Data clustering: 50 years beyond K-means 的论文中找到对 K-Means 的非常好的评论。

您还可以检查分层方法，例如 Ward 方法。

score 1 · Accepted Answer

有一种更具统计性的聚类分析方法，称为期望最大化算法。它使用统计分析来确定集群。当您拥有大量关于集群质心和训练数据的数据时，这可能是一种更好的方法。

此链接还列出了其他几种常见的聚类算法。显然，有些比其他更好，这取决于您拥有的数据量和/或您拥有的数据类型。

Udacity 有一门很棒的课程，Intro to Artificial Intelligence，其中一节课专门介绍无监督学习，Thrun 教授非常详细地解释了一些聚类算法。我强烈推荐该课程！

我希望这有帮助，

3 回答 3