据我了解,scipy 函数scipy.spatial.distance_matrix从提供的向量矩阵返回任何一对向量的 Minkowski 距离。有没有办法在不同的距离下获得相同的结果?看起来像distance_matrix(X, Y, distance_function)
什么?
我假设 scipy 在幕后做了某种优化。由于我正在处理非常大的向量,因此我宁愿通过实现自己的 distance_matrix 函数来失去这些优化的好处。
据我了解,scipy 函数scipy.spatial.distance_matrix从提供的向量矩阵返回任何一对向量的 Minkowski 距离。有没有办法在不同的距离下获得相同的结果?看起来像distance_matrix(X, Y, distance_function)
什么?
我假设 scipy 在幕后做了某种优化。由于我正在处理非常大的向量,因此我宁愿通过实现自己的 distance_matrix 函数来失去这些优化的好处。
此外,性能很可能会比 scipy 中已经实现的距离函数更好。
大多数距离函数都对所有对应用一个函数并将它们相加,例如。(A_ik-B_jk)**n
对于 Minkowski 距离,最后还应用了一些其他功能,例如。acc**(1/n)
.
模板功能
您无需在此处更改任何内容即可实现各种距离函数。
import numpy as np
import numba as nb
def gen_cust_dist_func(kernel_inner,kernel_outer,parallel=True):
kernel_inner_nb=nb.njit(kernel_inner,fastmath=True,inline='always')
kernel_outer_nb=nb.njit(kernel_outer,fastmath=True,inline='always')
def cust_dot_T(A,B):
assert B.shape[1]==A.shape[1]
out=np.empty((A.shape[0],B.shape[0]),dtype=A.dtype)
for i in nb.prange(A.shape[0]):
for j in range(B.shape[0]):
acc=0
for k in range(A.shape[1]):
acc+=kernel_inner_nb(A[i,k],B[j,k])
out[i,j]=kernel_outer_nb(acc)
return out
if parallel==True:
return nb.njit(cust_dot_T,fastmath=True,parallel=True)
else:
return nb.njit(cust_dot_T,fastmath=True,parallel=False)
例子和时间
#Implement for example a Minkowski distance and euclidian distance
#Minkowski distance p=20
inner=lambda A,B:(A-B)**20
outer=lambda acc:acc**(1./20)
my_minkowski_dist=gen_cust_dist_func(inner,outer,parallel=True)
#Euclidian distance
inner=lambda A,B:(A-B)**2
outer=lambda acc:np.sqrt(acc)
my_euclidian_dist=gen_cust_dist_func(inner,outer,parallel=True)
from scipy.spatial.distance import cdist
A=np.random.rand(1000,50)
B=np.random.rand(1000,50)
#Minkowski p=20
%timeit res_1=cdist(A,B,'m',p=20)
#1.44 s ± 8.18 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit res_2=my_minkowski_dist(A,B)
#10.8 ms ± 105 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
res_1=cdist(A,B,'m',p=20)
res_2=my_minkowski_dist(A,B)
print(np.allclose(res_1,res_2))
#True
#Euclidian
%timeit res_1=cdist(A,B,'euclidean')
#39.3 ms ± 307 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit res_2=my_euclidian_dist(A,B)
#3.61 ms ± 22.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
res_1=res_1=cdist(A,B,'euclidean')
res_2=my_euclidian_dist(A,B)
print(np.allclose(res_1,res_2))
#True