我正在尝试为我的数据创建一个新的距离函数。但是,与 stats 包中的 dist 函数相比,我的代码的性能非常慢。例如,查看欧几里得距离的结果:
mydist = function (x){
euclidean = function (a, b){
sqrt(sum((a-b)^2))
}
distances = matrix(0, nrow=nrow(x), ncol=nrow(x))
for (i in 1:nrow(x))
for (j in 1:(i-1)){ # <- corrected this
if (j > 0){
distances[i,j]=euclidean(x[i,], x[j,])
distances[j,i]=distances[i,j]
}
}
distances
}
m=matrix(1:800, ncol=2)
system.time(as.dist(mydist(m)))
usuário sistema decorrido
0.714 0.000 0.716 # <- updated values with corrected version
system.time(dist(m))
usuário sistema decorrido
0.004 0.000 0.002
我不会使用欧几里得距离。例如,我正在开发一个新的,它使用一些特定于我的数据的统计数据,它与代理包的统计数据不同。我在数据集中有数百个变量和数千个示例(行)。不能等待几个小时只是为了计算距离。
我尝试了另一个使用外部应用的代码。它比两个循环快,但仍然很慢。任何人都可以提出任何建议吗?