python-2.7 - 轮廓值增加而聚类数量增加

Question

我有一个矩阵，行是品牌，列是每个品牌的特征。

首先，我用scikit learn计算亲和矩阵，然后在亲和矩阵上应用谱聚类来进行聚类。

当我针对每个簇数计算轮廓值时，只要簇数增加，轮廓值也在增加。最后当簇的数量越来越大时，计算轮廓值，它会给出NaN结果

#coding utf-8
import pandas as pd

import sklearn.cluster as sk
from sklearn.cluster import SpectralClustering
from sklearn.metrics import silhouette_score


data_event = pd.DataFrame.from_csv('\Data\data_of_events.csv', header=0,index_col=0, parse_dates=True, encoding=None, tupleize_cols=False, infer_datetime_format=False)

data_event_matrix = data_event.as_matrix(columns = ['Furniture','Food & Drinks','Technology','Architecture','Show','Fashion','Travel','Art','Graphics','Product Design'])

#compute the affinity matrix

data_event_affinitymatrix = SpectralClustering().fit(data_event_matrix).affinity_matrix_

#clustering
for n_clusters in range(2,100,2):
    print n_clusters
    labels = sk.spectral_clustering(data_event_affinitymatrix, n_clusters=n_clusters, n_components=None,
                        eigen_solver=None, random_state=None, n_init=10, eigen_tol=0.0, assign_labels='kmeans')

    silhouette_avg = silhouette_score(data_event_affinitymatrix, labels)
    print("For n_clusters =", n_clusters, "The average silhouette_score of event clustering is :", silhouette_avg)

score 0 · Accepted Answer

如果您的目的是找到最佳集群数，那么您可以尝试使用 Elbow 方法。此方法存在多种变体，但主要思想是，对于不同的 K（簇数）值，您可以找到最适合您的应用的成本函数（例如，簇中所有点的平方距离之和）对于 K 的所有值，例如 1 到 8，或任何其他误差/成本/方差函数，它的质心。在你的情况下，如果它是一个距离函数，那么在一定数量的集群之后，你会注意到值的差异沿 y 轴变得可以忽略不计。根据为沿 x 轴的集群数量和沿 y 轴的度量绘制的图表，您选择 x 轴上的值“k”在 y-轴突然改变。

您可以在此看到，“K”的最佳值为 4。
图片来源：维基百科。

您可以用来验证集群的另一个度量是V-measure Score。它是一种对称度量，如果经常在基本事实未知时使用。它被定义为同质性和完整性的调和平均值。这是scikit-learn 中的一个示例供您参考。

编辑：V-measure 基本上用于比较两个不同的集群分配。

最后，如果您有兴趣，还可以查看归一化互信息分数来验证您的结果。

参考：

更新：我最近遇到了这个自调整光谱聚类。你可以试一试。

python-2.7 - 轮廓值增加而聚类数量增加

1 回答 1

Related

Reference