r - 在 R 的 sapply 调用中使用 which 的加速函数

Question

我有两个向量e和g。我想知道每个元素中较小e的元素百分比。g在 R 中实现这一点的一种方法是：

set.seed(21)
e <- rnorm(1e4)
g <- rnorm(1e4)
mf <- function(p,v) {100*length(which(v<=p))/length(v)}
mf.out <- sapply(X=e, FUN=mf, v=g)

使用大的eor g，这需要很长时间才能运行。如何更改或调整此代码以使其运行更快？

注意：mf上面的函数是基于messdismo 包中函数的代码。

score 8 · Accepted Answer

这么慢的原因是因为你正在调用你的函数length(e)时间。它对小向量并没有太大的区别，但是 R 函数调用的开销确实开始与更大的向量相加。

通常，您需要将其移动到已编译的代码中，但幸运的是您可以使用findInterval：

set.seed(21)
e <- rnorm(1e4)
g <- rnorm(1e4)
O <- findInterval(e,sort(g))/length(g)

# Now for some timings:
f <- function(p,v) mean(v<=p)
system.time(o <- sapply(e, f, g))
#   user  system elapsed 
#   0.95    0.03    0.98
system.time(O <- findInterval(e,sort(g))/length(g))
#   user  system elapsed 
#      0       0       0 
identical(o,O)  # may be FALSE
all.equal(o,O)  # should be TRUE

# How fast is this on large vectors?
set.seed(21)
e <- rnorm(1e7)
g <- rnorm(1e7)
system.time(O <- findInterval(e,sort(g))/length(g))
#   user  system elapsed 
#  22.08    0.08   22.31

r - 在 R 的 sapply 调用中使用 which 的加速函数

1 回答 1

Related

Reference