我有一个成功向量,并希望对每个值进行 binom.test。有没有比这个循环更快的方法(我有很多):
successes <-rbinom(100, 625, 1/5)
x <-NULL
for (i in 1:100) {
x <-append(x, binom.test(successes[i], 625, 1/5)$p.value)
}
我有一个成功向量,并希望对每个值进行 binom.test。有没有比这个循环更快的方法(我有很多):
successes <-rbinom(100, 625, 1/5)
x <-NULL
for (i in 1:100) {
x <-append(x, binom.test(successes[i], 625, 1/5)$p.value)
}
您可以使用 for 循环sapply()
来计算p.values
每个成功值,而不是循环。
pp <- sapply(successes, function(x) binom.test(x, 625, 1/5)$p.value)
如果您需要真正加速过程,您可以使用 package 的优点data.table
。首先,转换successes
为data.table
对象。然后计算每一行的 p.value。
library(data.table)
dt<-data.table(successes)
dt[,pp:=binom.test(successes, 625, 1/5)$p.value,by=successes]
哇data.table
真的很快,似乎只是工作!中的许多值successes
都是重复的,因此可以通过binom.test
仅对唯一值进行昂贵的计算来节省时间。
fasterbinom <- function(x, ...) {
u <- unique(x)
idx <- match(x, u)
sapply(u, function(elt, ...) binom.test(elt, ...)$p.value, ...)[idx]
}
对于某些时间,我们有
dtbinom <- function(x, ...) {
dt <- data.table(x)
dt[, pp:=binom.test(x, ...)$p.value, by=x]$pp
}
和
> successes <-rbinom(100000, 625, 1/5)
> identical(fasterbinom(successes, 625, .2), dtbinom(successes, 625, .2))
[1] TRUE
> library(rbenchmark)
> benchmark(fasterbinom(successes, 625, .2), dtbinom(successes, 625, .2))
test replications elapsed relative user.self
2 dtbinom(successes, 625, 0.2) 100 4.265 1.019 4.252
1 fasterbinom(successes, 625, 0.2) 100 4.184 1.000 4.124
sys.self user.child sys.child
2 0.008 0 0
1 0.052 0 0
在这种情况下比较循环方法很有趣
f0 <- function(s, ...) {
x0 <-NULL
for (i in seq_along(s))
x0 <-append(x0, binom.test(s[i], ...)$p.value)
x0
}
f1 <- function(s, ...) {
x1 <- numeric(length(s))
for (i in seq_along(s))
x1[i] <- binom.test(s[i], ...)$p.value
x1
}
f2 <- function(s, ...)
sapply(s, function(x, ...) binom.test(x, ...)$p.value, ...)
f3 <- function(s, ...)
vapply(s, function(x, ...) binom.test(x, ...)$p.value, numeric(1), ...)
wheref1
是使用 时通常更好的“预分配和填充”策略for
,f2
是一种sapply
消除用户掌握的不良for
循环的可能性,并且f3
是一种更安全且可能更快的版本sapply
,可确保每个结果都是长度为 1数值。
每个函数返回相同的结果
> n <- 1000
> xx <-rbinom(n, 625, 1/5)
> res0 <- f0(xx, 625, .2)
> identical(res0, f1(xx, 625, .2))
[1] TRUE
> identical(res0, f2(xx, 625, .2))
[1] TRUE
> identical(res0, f3(xx, 625, .2))
[1] TRUE
和 whileapply
类方法比 for 循环快 10% 左右(在这种情况下;当单个元素很大时,f0 和 f1 之间的差异会更加显着)
> benchmark(f0(xx, 625, .2), f1(xx, 625, .2), f2(xx, 625, .2),
+ f3(xx, 625, .2), replications=5)
test replications elapsed relative user.self sys.self user.child
1 f0(xx, 625, 0.2) 5 2.303 1.100 2.300 0 0
2 f1(xx, 625, 0.2) 5 2.361 1.128 2.356 0 0
3 f2(xx, 625, 0.2) 5 2.093 1.000 2.088 0 0
4 f3(xx, 625, 0.2) 5 2.212 1.057 2.208 0 0
sys.child
1 0
2 0
3 0
4 0
fasterbinom
真正的速度来自/的更高级的算法dtbinom
。
> identical(res0, fasterbinom(xx, 625, .2))
[1] TRUE
> benchmark(f2(xx, 625, .2), fasterbinom(xx, 625, .2), replications=5)
test replications elapsed relative user.self sys.self
1 f2(xx, 625, 0.2) 5 2.146 16.258 2.145 0
2 fasterbinom(xx, 625, 0.2) 5 0.132 1.000 0.132 0
user.child sys.child
1 0 0
2 0 0