python - sklearn 的 pairwise_distances with metric='correlation' 有什么作用？

Question

我在这个函数中输入了不同的值并观察了输出。但是我在输出的内容中找不到可预测的模式。

然后我尝试挖掘函数本身，但它令人困惑，因为它可以进行许多不同的计算。

根据文档：

Compute the distance matrix from a vector array X and optional Y.

我看到它返回一个高度和宽度矩阵，等于输入的嵌套列表的数量，这意味着它正在比较每个列表。

但除此之外，我很难理解它在做什么以及价值来自哪里。

我试过的例子：

pairwise_distances([[1]], metric='correlation')
>>> array([[0.]])

pairwise_distances([[1], [1]], metric='correlation')
>>> array([[ 0., nan],
>>>        [nan,  0.]])

# returns same as last input although input values differ
pairwise_distances([[1], [2]], metric='correlation')
>>> array([[ 0., nan],
>>>        [nan,  0.]])

pairwise_distances([[1,2], [1,2]], metric='correlation')
>>> array([[0.00000000e+00, 2.22044605e-16],
>>>        [2.22044605e-16, 0.00000000e+00]])

# returns same as last input although input values differ
# I incorrectly expected more distance because input values differ more
pairwise_distances([[1,2], [1,3]], metric='correlation')
>>> array([[0.00000000e+00, 2.22044605e-16],
>>>       [2.22044605e-16, 0.00000000e+00]])

用 Scipy 计算相关距离

2.22044605e-16如果 scipy 返回0.0相同的输入，我不明白 sklearn值的来源。

# Scipy
import scipy
scipy.spatial.distance.correlation([1,2], [1,2])
>>> 0.0

# Sklearn
pairwise_distances([[1,2], [1,2]], metric='correlation')
>>> array([[0.00000000e+00, 2.22044605e-16],
>>>        [2.22044605e-16, 0.00000000e+00]])

我不是在寻找高级别的解释，而是如何计算数字的示例。

score 2 · Accepted Answer

pairwise_distances内部调用distance.pdist(), when yis None（这意味着我们要计算 X 中每个向量的距离矩阵）

参考文献1 , 2

实现将类似于以下内容：

X = np.array([[1,2], [1,2]])

import numpy as np
from numpy.linalg import norm

X2 = X - X.mean(axis=1, keepdims=True)

u, v =[*X2]

1 - (sum(u*v)/(norm(u) * norm(v)))

#2.220446049250313e-16

但是scipy.spatial.distance.correlation最新版本的实现有所不同

相关性特别在这里：

https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.correlation.html#scipy.spatial.distance.correlation

u 和 v 之间的相关距离定义为

score 1 · Accepted Answer

我完全理解这种困惑。

相关性是在向量上计算的，sklearn 将标量转换为大小为 1 的向量。

的结果

from sklearn.metrics import pairwise_distances
from scipy.spatial.distance import correlation
pairwise_distances([u,v,w], metric='correlation')

M是一个shape矩阵(len([u,v,w]),len([u,v,w]))=(3,3)，其中：

M[0,0] = correlation(u,u)
M[0,1] = correlation(u,v)
M[0,2] = correlation(u,w)
M[1,0] = correlation(v,u)
M[1,1] = correlation(v,v)
M[1,2] = correlation(v,w)
M[2,0] = correlation(w,u)
M[2,1] = correlation(w,v)
M[2,2] = correlation(w,w)

您正在查看仅当和是标量时才correlation([u,v,w], [u,v,w])具有有效值。uvw

score 1 · Accepted Answer

import sklearn

X = [[1, 2, 3, 4], [2, 2, 4, 4], [4, 3, 2, 1]]

D = sklearn.metrics.pairwise_distances(X, metric='correlation')
print(D)

输出：

[[0.         0.10557281 2.        ]
 [0.10557281 0.         1.89442719]
 [2.         1.89442719 0.        ]]

D是一个距离矩阵，使得D _{{i, j}}是给定矩阵的第i^个和第 j^个X向量之间的距离。

import scipy

X = [[1, 2, 3, 4], [2, 2, 4, 4], [4, 3, 2, 1]]

c_00 = scipy.spatial.distance.correlation(X[0], X[0])        # c_00 = 0.0
c_01 = scipy.spatial.distance.correlation(X[0], X[1])        # c_01 = 0.10557280900008414
c_02 = scipy.spatial.distance.correlation(X[0], X[2])        # c_02 = 2.0

2.22044605e-16如果 scipy 返回0.0相同的输入，我不明白 sklearn值的来源。

这可能是一个舍入错误。

import numpy as np
epsilon = np.finfo(float).eps
print(epsilon)

输出：

2.220446049250313e-16                                    # This value is machine dependent

您可以使用np.isclose将极小的值四舍五入为 0。

python - sklearn 的 pairwise_distances with metric='correlation' 有什么作用？

4 回答 4

Related

Reference