5

我有一个 svmlight 格式的大型(100K x 30K)和(非常)稀疏数据集,我加载如下:

import numpy as np
from scipy.cluster.vq import kmeans2
from scipy.spatial.distance import pdist, squareform
from sklearn.datasets import load_svmlight_file

X,Y = load_svmlight_file("somefile_svm.txt")

它返回一个稀疏的 scipy 数组 X

我只需要计算所有训练点的成对距离为

D = pdist(X)

不幸的是,scipy.spatial.distance 中的距离计算实现仅适用于密集矩阵。由于数据集的大小,使用 pdist 作为

D = pdist(X.todense())

任何指向稀疏矩阵距离计算实现或与此问题有关的解决方法的指针将不胜感激。

非常感谢

4

1 回答 1

5

其中scikit-learn有一个sklearn.metrics.euclidean_distances适用于稀疏矩阵和密集 numpy 数组的函数。请参阅参考文档

然而,稀疏矩阵尚未实现非欧几里得距离。

于 2012-01-22T09:59:47.330 回答