r - 如何从大型数据集中优化子集？

Question

我有这个金融交易数据集，它很大但足够小，可以保存在内存中。

R> str(trans)
'data.frame':   130000000 obs. of  5 variables:
 $ id    : int  5 5 5 5 6 11 11 11 11 11 ...
 $ kod   : int  2 3 2 3 38 2 3 6 7 6 ...
 $ ar    : int  329 329 330 330 7 329 329 329 329 329 ...
 $ belopp: num  1531 -229.3 324 -48.9 0 ...
 $ datum : int  36976 36976 37287 37287 37961 36976 36976 37236 37236 37281 ...

我需要遍历它，为每个唯一 ID 提取交易，并进行大量计算。问题是数据集的子集太慢了..

R> system.time(
+ sub <- trans[trans$id==15,]
+ )
   user  system elapsed 
   7.80    0.55    8.36


R> system.time(
+ sub <- subset(trans, id == 15)
+ )
   user  system elapsed 
   8.49    1.05    9.53

由于这个数据集中有大约 10m 的唯一 ID，这样的循环将永远持续下去，有什么想法可以加快速度吗？

编辑我已经涉足“data.tables”，索引和排序并没有太多运气..

library(data.table)
trans2 <- as.data.table(trans)
trans2 <- trans2[order(id)]
trans2 <- setkey(trans2, id)

R> system.time(
+ sub <- trans2[trans2$id==15,]
+ )
   user  system elapsed 
   7.33    1.08    8.41 

R> system.time(
+ sub <- subset(trans2, id == 15)
+ )
   user  system elapsed 
   8.66    1.12    9.78

EDIT2太棒了。

R> system.time(
+ sub <- trans2[J(15)]
+ )
   user  system elapsed 
      0       0       0

score 3 · Accepted Answer

Note:该帖子已通过将计算的函数从更改为进行编辑rowSums（colSums在lapplydata.table 的情况下使用）

我不认为你能比data.table. plyr这是和之间的基准data.table。当然，如果耗时的部分是您的功能，那么您可以使用doMC并行运行plyr（假设您有很多内核或者您在集群上工作）。否则，我会坚持data.table. 这是一个包含大量测试数据和虚拟函数的分析：

# create a huge data.frame with repeating id values
len <- 1e5
reps <- sample(1:20, len, replace = TRUE)
x <- data.frame(id = rep(1:len, reps))
x <- transform(x, v1 = rnorm(nrow(x)), v2 = rnorm(nrow(x)))

> nrow(x) 
[1] 1048534 # 1 million rows

# construct functions for data.table and plyr
# method 1
# using data.table
DATA.TABLE <- function() {
    require(data.table)
    x.dt <- data.table(x, key="id")
    x.dt.out <- x.dt[, lapply(.SD, sum), by=id]
}

# method 2
# using plyr
PLYR <- function() {
    require(plyr)
    x.plyr.out <- ddply(x, .(id), colSums)
}

# let's benchmark
> require(rbenchmark)
> benchmark(DATA.TABLE(), PLYR(), order = "elapsed", replications = 1)[1:5]
          test replications elapsed relative user.self
1 DATA.TABLE()           1  1.006     1.00    .992
2       PLYR()           1  67.755   67.351  67.688

在具有 100 万行的 data.frame 上，data.table需要0.992 seconds. data.table使用比较的加速比plyr（诚然，在计算列总和上）是68x. 根据函数中的计算时间，这种加速会有所不同。但data.table仍然会更快。plyr是一种拆分应用组合策略。与使用 base 拆分、应用和组合自己相比，我认为您不会获得可比的加速。当然你可以试试。

我运行了 1000 万行的代码。data.table跑了 5.893 秒。plyr耗时 6300 秒。

score 0 · Accepted Answer

为什么不使用拆分、应用和组合策略？

像这样的东西（没有样本数据我不知道这是否可行）：

fastsplit <- function (df) {
  lista <- split(seq(nrow(df)), df$id)
  return(lista)
}

# function to split the data frame into a list by id

lista_split <- fastsplit(trans)

# now, assuming that one of the calculations is, for instance, to sum belopp
# apply the function to each subset

result1 <- lapply(lista_split, function(.indx){

  sum_bellop = sum(trans$belopp[.indx])})

# combine stage
r1 <- do.call(rbind, result1)

提供了上面的代码后，我想说如果你可以使用 SQL，它会更快更容易。也许 sqldf 包可以在这里帮助你？不过我从来没有尝试过。不知道快不快 SQL 中的代码非常简单。要执行与上面的 R 代码相同的操作，只需使用以下内容：

select id
       , sum(belopp) as sum_bellop from trans
group by id

这将返回一个包含两列的表，id 和 belopp by id 的总和

r - 如何从大型数据集中优化子集？

2 回答 2

Related

Reference