21

我运行了一个聚类算法,并希望通过在 scikit-learn 中使用轮廓分数来评估结果。但是在scikit-learn中,需要计算距离矩阵:distances = pairwise_distances(X, metric=metric, **kwds)

由于我的数据是300K的顺序,而我的内存是2GB,结果是内存不足。而且我无法评估聚类结果。

有谁知道如何克服这个问题?

4

1 回答 1

27

sample_size调用中的参数设置为silhouette_score小于 300K 的某个值。使用此参数将从数据点中采样X并计算silhouette_score这些数据点,而不是整个数组。

于 2013-05-07T17:24:28.010 回答