1

对于数据帧中的每个点 (x,y),我想计算从该点到数据帧中没有相同“组”标签的所有其他点的欧几里德距离之和。这是我想要实现的一个 hacky for 循环版本:

# some fake data
d <- data.frame(group=rep(c('a','b','c'),each=3), x=sample(1:9), y=sample(1:9), z=NA)
for (i in 1:nrow(d)) {
  d2 <- subset(d,group!=d$group[i])
  d$z[i] <- sum(sqrt((d$x[i]-d2$x)^2 + (d$y[i]-d2$y)^2))
} 

例如,点 a1 的期望值应该是从 a1 到 b1、b2、b3、c1、c2、c3 的距离之和,但不包括距离 a1-a2 或 a1-a3。有没有一种矢量化的方式来实现这一点?我确信这是一个明显的解决方案......我尝试了各种配置,by()apply()似乎无法找到答案。

4

2 回答 2

3

有一个非常好的方法可以有效地解决这个问题:预先计算所有距离并将它们子集而不是点,以避免重复相同的计算。

dists <- as.matrix(dist(d[2:3]))
d$z <- sapply(seq(d$group), function(i) sum(dists[i, !d$group %in% d$group[i]]))
于 2012-10-01T06:43:46.897 回答
1

对 Backlin 的解决方案与循环进行基准测试的结果(使样本数据更大一点以放大差异):

d <- data.frame(group=rep(letters[1:10],each=100), x=sample(1:1000), y=sample(1:1000), z=NA)
loopMethod <- function(d) {
  for (i in 1:nrow(d)) {
    d2 <- subset(d,group!=d$group[i])
    d$z[i] <- sum(sqrt((d$x[i]-d2$x)^2 + (d$y[i]-d2$y)^2))
  }
}
backlinMethod <- function(d) {
  dists <- as.matrix(dist(d[2:3]))
  d$z <- sapply(seq(d$group), function(i) sum(dists[i, !d$group %in% d$group[i]]))
}
system.time(loopMethod(d))
 user  system elapsed 
1.020   0.004   1.021 
system.time(backlinMethod(d))
 user  system elapsed 
0.472   0.052   0.525 
于 2012-10-01T16:17:53.027 回答