2

我正在尝试为我的数据创建一个新的距离函数。但是,与 stats 包中的 dist 函数相比,我的代码的性能非常慢。例如,查看欧几里得距离的结果:

mydist = function (x){

  euclidean = function (a, b){
    sqrt(sum((a-b)^2))
  }

  distances = matrix(0, nrow=nrow(x), ncol=nrow(x))
  for (i in 1:nrow(x))
    for (j in 1:(i-1)){  # <- corrected this
      if (j > 0){
         distances[i,j]=euclidean(x[i,], x[j,])
         distances[j,i]=distances[i,j]
      }
    }

  distances
}


m=matrix(1:800, ncol=2)
system.time(as.dist(mydist(m)))
  usuário   sistema decorrido 
    0.714     0.000     0.716      # <- updated values with corrected version

system.time(dist(m))
  usuário   sistema decorrido 
    0.004     0.000     0.002 

我不会使用欧几里得距离。例如,我正在开发一个新的,它使用一些特定于我的数据的统计数据,它与代理包的统计数据不同。我在数据集中有数百个变量和数千个示例(行)。不能等待几个小时只是为了计算距离。

我尝试了另一个使用外部应用的代码。它比两个循环快,但仍然很慢。任何人都可以提出任何建议吗?

4

2 回答 2

2

关键是从整个矩阵中减去每一行,而不是每一行。由于减法是按列进行的,因此只需转置矩阵。

m=matrix(1:800, ncol=2)
system.time(a<-as.dist(mydist(m)))
# user  system elapsed
# 1.32    0.00    1.32 

t.m<-t(m)
system.time(x<-as.dist(apply(m,1,function(x) sqrt(colSums((x - t.m)^2)))))
# user  system elapsed
# 0.04    0.00    0.03 

any(x!=a) # FALSE

但如果你真的想要速度,你应该使用 C 库。

于 2012-10-05T18:32:11.403 回答
1

加快速度的关键是

  • 您的距离函数可以很容易地矢量化。如果是这种情况,请查看? outer, 和/或? rep.
    这种方法可能非常快,但也很消耗内存。

  • apply将基本上将两个循环减少为一个,但实际矢量化通常要快得多。

  • 或者您可能想使用例如内联 C 代码,请参阅 package inline。

  • 您不小心计算出所需距离的两倍(您进行了对称复制,但两者都i循环j了整个1 : nrow (x))。

于 2012-10-05T18:05:12.000 回答