2

我有一个非常大的数据框,我的目标是按用户 ID 列出累计美元。数据框看起来像这样,但它更大:

dt<-sample(seq(as.Date("2013-01-01"),as.Date("2013-05-01"),by="days"),10)
s<-c(rep(5252525,5),rep(1313131,5))
usd<-round(rnorm(10,100),2)
money<-data.frame(dt,s,usd)
money<-money[order(money$dt),]
money$Cumulative<-NA
users<-unique(money$s)

我从一个 for 循环开始,但它非常慢:

for (i in 1:length(users)){
    temp=which(money$s==users[i])
    money$Cumulative[temp]=cumsum(money$usd[temp])
}

我在 StackOverflow 上读到我可以使用 data.table 来提高整体速度,这在一定程度上有所帮助:

money<-data.table(money)
setkey(money,s)

for (i in 1:length(users)){
    temp=which(money$s==users[i])
    money$Cumulative[temp]=cumsum(money$usd[temp])
}

我想让这个计算更快。接下来我该怎么办?

4

2 回答 2

5

Since money is already ordered by the dt column, you can just use ave:

money$Cumulative <- ave(money$usd, money$s, FUN=cumsum)

Or you can use data.table:

moneyDT <- as.data.table(money[,1:3])
moneyDT[,cumulative := cumsum(usd), by=s]
于 2013-07-26T14:41:25.357 回答
1

听起来您正在寻找data.table选项。

使用 Joshua 提出的方法并指出使用玩具数据可能会产生误导(即类似的方法对最小数据集执行相似lil_money,但对于更现实的数据集则不然money):

结果

Unit: microseconds
              expr     min      lq  median      uq       max neval
 useAve(lil_money) 694.269 730.491 741.358 756.753 13687.951  1000
  useBy(lil_money) 709.664 748.603 759.470 775.770  5341.338  1000

Unit: milliseconds
          expr       min        lq    median        uq       max neval
 useAve(money) 3940.8970 3966.0950 4002.4319 4090.3967 4145.2672    10
  useBy(money)  105.7129  106.5789  109.6566  117.2939  122.1414    10

Identical output: TRUE

代码

require(microbenchmark)
require(data.table)

start <- as.Date("2001-01-01")
money <- CJ(s=1:1e4, dt=start + 0:1e3)[, usd := runif(.N)]

lil_money <- money[s < 10 & dt < start + 10]

useAve <- function(DT) { DT[, cum_ave := ave(usd, s, FUN=cumsum)] }
useBy <- function(DT) { DT[, cum_by := cumsum(usd), by=s] }

print(microbenchmark(useAve(lil_money), useBy(lil_money),  times=1000))
print(microbenchmark(useAve(money), useBy(money),  times=10))

cat("Identical output:", identical(money$cum_ave, money$cum_by))
于 2013-07-26T23:24:33.390 回答