r - R - 如何在非常大的数据集上加快欧几里得距离计算

Question

社区，

我有一个非常大的数据集，其中包含 3 列坐标（x、y、z）和 24 x 10^6 行。我需要计算所有行与第一行之间的欧几里得距离，即 0、0、0。下面的循环需要很长时间！我也在矩阵而不是数据框上尝试过这个，但这并没有解决问题。

有没有人有加快这个过程的建议？

library(cluster)

e <- list() # list to be filled with euclidean distances

for (r in 1:(nrow(pca.123.df))) {

  eucl.dist <- daisy(pca.123.df[c(1,r), ], metric = "euclidean") # Euclidean distance between anomaly and zero (row 1)

  e[[r]] <- eucl.dist[1]

}

score 4 · Accepted Answer

使用欧几里得距离的公式。

您的代码的可重现示例：

library(cluster)
set.seed(42)
DF <- as.data.frame(rbind(0, matrix(rnorm(15), ncol=3))) 

e <- list() # list to be filled with euclidean distances

for (r in 1:(nrow(DF))) {

  eucl.dist <- daisy(DF[c(1,r), ], metric = "euclidean") # Euclidean distance between anomaly and zero (row 1)

  e[[r]] <- eucl.dist[1]

}
# [[1]]
# [1] 0
# 
# [[2]]
# [1] 1.895646
# 
# [[3]]
# [1] 2.79863
# 
# [[4]]
# [1] 1.438665
# 
# [[5]]
# [1] 2.133606
# 
# [[6]]
# [1] 0.4302796

矢量化解决方案：

sqrt(colSums((t(DF)-unlist(DF[1,]))^2))
#[1] 0.0000000 1.8956461 2.7986300 1.4386649 2.1336055 0.4302796

使用第一行全为零的知识：

sqrt(rowSums(DF^2))
#1] 0.0000000 1.8956461 2.7986300 1.4386649 2.1336055 0.4302796

r - R - 如何在非常大的数据集上加快欧几里得距离计算

1 回答 1

Related

Reference