r - 如何优化大型 R 数据框中每一行的过滤和计数

Question

我有一个数据框，如下所示：

  name day wages
1  Ann   1   100
2  Ann   1   150
3  Ann   2   200
4  Ann   3   150
5  Bob   1   100
6  Bob   1   200
7  Bob   1   150
8  Bob   2   100

对于每个唯一的姓名/日期对，我想计算一个总数范围，例如“此人当前或第二天工资大于 175 的次数”。列比工资多得多，并且有四个时间片适用于每一行的每个总计。

我目前可以通过唯一化我的数据框来完成：

df.unique <- df[!duplicated(df[,c('name','day')]),]

然后对于中的每一行df.unique，将以下函数（为清楚起见而写成简写形式）应用于df：

for(i in 1:nrow(df.unique)) {
    df.unique[i,"wages_gt_175_day_and_next"] <- wages_gt_for_person_today_or_next(df,175,df.unique[i,"day"],df.unique[i,"name"])
}

wages_gt_for_person_today_or_next <- function(df,amount,day,person) {
  temp <- df[df$name==person,]
  temp <- temp[temp$day==day|temp$day==day+1,]
  temp <- temp[temp$wages > amount,]
  return(nrow(temp))
}

给我，在这个简单的例子中：

name day wages_gt_175_day_and_next
Ann   1   1
Ann   2   1
Ann   3   0
Bob   1   1
Bob   2   0

但是，鉴于我有数十万行，这似乎是一种极其缓慢的方法。有没有更聪明的方法来做到这一点？矩阵运算、应用、sqldf 之类的东西？

重新创建示例 df 的代码：

structure(list(name = structure(c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 
2L), .Label = c("Ann", "Bob"), class = "factor"), day = c(1, 
1, 2, 3, 1, 1, 1, 2), wages = c(100, 150, 200, 150, 100, 200, 
150, 100)), .Names = c("name", "day", "wages"), row.names = c(NA, 
-8L), class = "data.frame")

score 3 · Accepted Answer

简单地从您的示例输出来看，这里有一些更有趣的使用data.table：

require(data.table)
DT <- data.table(df)
setkey(DT,name,day)

DT[,list(gt175 = sum(wages >= 175)),list(name,day)][,list(day = day,gt175 = as.integer(gt175 + c(tail(gt175,-1),0) > 0)),list(name)]

这有点令人费解，但应该很快。

r - 如何优化大型 R 数据框中每一行的过滤和计数

1 回答 1

Related

Reference