我正在寻找以下问题的更快解决方案。我将用一个小例子来说明这个问题,然后提供代码来模拟大数据,因为这就是这个问题的重点。我的实际问题大小是列表长度 = 100 万个条目。
说,我有两个列表,如下所示:
x <- list(c(82, 18), c(35, 50, 15))
y <- list(c(1,2,3,55,90), c(37,38,95))
x 和 y 的属性:
- 列表中的每个元素
x
总和为 100。 - 的每个元素
y
将始终进行排序,并且始终介于 1 和 100 之间。
问题:
现在,我想要的是这个。取x[[1]]
and y[[1]]
,我想找到y[[1]]
1) <= 82 和 2) > 82 和 <= 100 中的数字计数。那就是 c(4, 1) 因为数字 <= 82 是c(1,2,3,55)
和之间的数字83和100是c(90)
。x[[2]]
与y[[2]]
, c(0, 2, 1)类似。也就是说,答案应该是:
[[1]]
[1] 4 1
[[2]]
[1] 0 2 1
如果这还不清楚,请告诉我。
具有 100 万个条目的模拟数据
set.seed(1)
N <- 100
n <- 1e6
len <- sample(2:3, n, TRUE)
x <- lapply(seq_len(n), function(ix) {
probs <- sample(100:1000, len[ix])
probs <- probs/sum(probs)
oo <- round(N * probs)
if (sum(oo) != 100) {
oo[1] <- oo[1] + (100 - sum(oo))
}
oo
})
require(data.table)
ss <- sample(1:10, n, TRUE)
dt <- data.table(val=sample(1:N, sum(ss), TRUE), grp=rep(seq_len(n), ss))
setkey(dt, grp, val)
y <- dt[, list(list(val)),by=grp]$V1
到目前为止我所做的:
使用mapply
(慢):
我想首先使用rank
with ties.method="first"
and mapply
(显然选择 2 个列表)并尝试了这个:
tt1 <- mapply(y, x, FUN=function(a,b) {
tt <- rank(c(a, cumsum(b)), ties="first")[-(1:length(a))]; c(tt[1]-1, diff(tt)-1)
})
虽然这工作得很好,但 1M 条目需要大量时间。我认为计算的开销rank
会diff
增加很多次。这需要241 秒!
因此,我决定尝试并通过使用“组”列进行排序来克服和的使用rank
。我想出了一个更长但更快的解决方案,如下所示:diff
data.table
使用data.table
(更快):
xl <- sapply(x, length)
yl <- sapply(y, length)
xdt <- data.table(val=unlist(x, use.names=FALSE), grp=rep(seq_along(xl), xl), type = "x")
xdt[, cumval := cumsum(val), by=grp]
ydt <- data.table(val=unlist(y, use.names=FALSE), grp=rep(seq_along(yl), yl), type = "y")
tt2 <-rbindlist(list(ydt, xdt[, list(cumval, grp, type)]))
setkey(tt2, grp, val)
xdt.pos <- which(tt2$type == "x")
tt2[, type.x := 0L][xdt.pos, type.x := xdt.pos]
tt2 <- tt2[xdt.pos][tt2[, .N, by = grp][, N := cumsum(c(0, head(N, -1)))]][, sub := type.x - N]
tt2[, val := xdt$val]
# time consuming step
tt2 <- tt2[, c(sub[1]-1, sub[2:.N] - sub[1:(.N-1)] - 1), by = grp]
tt2 <- tt2[, list(list(V1)),by=grp]$V1
这需要26 秒。所以它快了大约 9 倍。我想知道是否有可能获得更多的加速,因为我必须在 5-10 个这样的 100 万个元素上递归地计算它。谢谢你。