r - 是否有更快的方法将逻辑操作应用于 R 中的大型数据集的子集？

Question

StackOverflow 上的第一篇文章，所以如果我的礼仪不太正确，请保持温和。

我有一个大数据框（实际上，其中有七个，但这并不重要），其中包含从一副纸牌中抽出的手。我有另一个与之配套的数组，显示玩家选择持有的初始手牌中的哪些牌。任何未持有的牌都会从牌库中重新抽取。第一个数据框包含所有绘制的卡片，因此每行的长度可以在 5 到 10 列之间，对于 5 到 0 之间的卡片。这有意义吗？例如：

> str(cards01)
'data.frame':   5044033 obs. of  10 variables

> head(cards01)
   V1  V2  V3  V4  V5  V6  V7 V8  structure(c("", "", "", "", "", ""), class = "AsIs")
1  D0 D10  H0  C5  H1  S3  C4 D6                                                      
2  D5 S10  H7  C7  S0  S5 S12 H5                                                      
3  S4  H4  C1  D4 D11  H6  D1                                                         
4  C3  C9  D9 S10  S2  C7  S3 D2                                                      
5 H11  C0  C6  H3 H12 C11  S0                                                         
6 C10  C9 D11  D8  D5  S8

> str(heldCards01)
 num [1:5044033, 1:5] 1 3 1 2 1 1 2 1 1 1 ...
 - attr(*, "dimnames")=List of 2
  ..$ : NULL
  ..$ ..$ : chr [1:5] "1" "2" "3" "4" ...

> head(heldCards01)
     1 2  3  4  5
[1,] 1 3 NA NA NA
[2,] 3 4 NA NA NA
[3,] 1 2  4 NA NA
[4,] 2 3 NA NA NA
[5,] 1 4  5 NA NA
[6,] 1 2  3  4 NA

所以我正在做的是制作一个新的数据框，其中只包含玩家最终得到的卡片，即删除每行未在持有的卡片数组中标识的单元格。我已经编写了代码来执行此操作，但它现在整个周末都在运行，但仍未完成。这是我正在运行的代码（这一切都发生在 lapply 中，以遍历我拥有的每个数据帧/矩阵对，我试图优化的部分发生在 mclapply 中）：

all.hands <- lapply(stakes, function(stake){
  cardsOb <- get(paste("cards", stake, sep = ""))
  heldOb <- get(paste("heldCards", stake, sep = ""))
  l <- length(cardsOb[,1])
  mclapply(1:l, function(rowNum) {
    row <- (heldOb[rowNum,])
    theNAs <- as.logical(is.na(row))
    heldIndex <- row[!theNAs]
    discarded <- c(1,2,3,4,5)[-heldIndex]
    if(length(discarded) >= 1) {
      hand <- cardsOb[rowNum,-discarded]
    } else {
      hand <- cardsOb[rowNum,]
    }
    hand <- sort(hand)
  })
})

我是否缺少任何可以减少某些步骤的功能？如果数据框是数组会更快吗？我只需要等待几天和几天吗？如果重要的话，我在配备两个 Xeon E5-2407 四核处理器和 32GB 内存的 Z620 上运行。

score 0 · Accepted Answer

这是我的做法。为简单起见，我假设您的初始卡持有在数据帧 df1 中，持有卡索引在 df2 中（只是更改了名称）

这个想法是使用 df2 的行作为匹配 df1 行的索引，并对所有行重复为避免类问题，我使用数组而不是 data.frames（这不是很好的索引）

这可以在一个“极客”命令中完成：

holdings = t(sapply(1:nrow(df1),function(x) as.matrix(df1)[x,][as.matrix(df2)[x,]]))

然后，您可以更改行名和列名，构建新的 data.frame 等。

可能有更好的方法可以做到这一点，但我认为上面的方法很简单。随意询问您是否不理解该命令中的某些内容

r - 是否有更快的方法将逻辑操作应用于 R 中的大型数据集的子集？

1 回答 1

Related

Reference