memory - 执行 scikit-learns 剪影分数时如何修复 MemoryError？

Question

我运行了一个聚类算法，并希望通过在 scikit-learn 中使用轮廓分数来评估结果。但是在scikit-learn中，需要计算距离矩阵：distances = pairwise_distances(X, metric=metric, **kwds)

由于我的数据是300K的顺序，而我的内存是2GB，结果是内存不足。而且我无法评估聚类结果。

有谁知道如何克服这个问题？

score 27 · Accepted Answer

将sample_size调用中的参数设置为silhouette_score小于 300K 的某个值。使用此参数将从数据点中采样X并计算silhouette_score这些数据点，而不是整个数组。

1 回答 1