我运行了一个聚类算法,并希望通过在 scikit-learn 中使用轮廓分数来评估结果。但是在scikit-learn中,需要计算距离矩阵:distances = pairwise_distances(X, metric=metric, **kwds)
由于我的数据是300K的顺序,而我的内存是2GB,结果是内存不足。而且我无法评估聚类结果。
有谁知道如何克服这个问题?
我运行了一个聚类算法,并希望通过在 scikit-learn 中使用轮廓分数来评估结果。但是在scikit-learn中,需要计算距离矩阵:distances = pairwise_distances(X, metric=metric, **kwds)
由于我的数据是300K的顺序,而我的内存是2GB,结果是内存不足。而且我无法评估聚类结果。
有谁知道如何克服这个问题?
将sample_size
调用中的参数设置为silhouette_score
小于 300K 的某个值。使用此参数将从数据点中采样X
并计算silhouette_score
这些数据点,而不是整个数组。