r - 在大型 ffdfs 上使用 apply

Question

基本思想是这样的：我有一个很大的ffdf（大约 550 万 x 136 个字段）。我知道这个数据框中的一些列的所有列都是NA. 我如何找出哪些并适当地删除它们？

我的直觉是做类似的事情（假设df是ffdf）：

apply(X=is.na(df[,1:136]), MARGIN = 2, FUN = sum)

这应该给我NA每列的计数向量，然后我可以找到哪些具有约 550 万个值，使用等NA删除它们。非常简单。df <- df[,-c(vector of columns)]

但是，apply给我一个错误。

Error: cannot allocate vector of size 21.6 Mb
In addition: Warning messages:
1: In `[.ff`(p, i2) :
  Reached total allocation of 3889Mb: see help(memory.size)
2: In `[.ff`(p, i2) :
  Reached total allocation of 3889Mb: see help(memory.size)
3: In `[.ff`(p, i2) :
  Reached total allocation of 3889Mb: see help(memory.size)
4: In `[.ff`(p, i2) :
  Reached total allocation of 3889Mb: see help(memory.size)

这告诉我apply无法处理这种大小的数据框。我可以使用任何替代方案吗？

score 1 · Accepted Answer

它更容易使用all(is.na(column))。sapply/lapply不起作用，因为 and ffdfobject 不是列表。

您df[, 1:136]在代码中使用。这将导致ff尝试将所有 136 列加载到内存中。这就是导致内存问题的原因。这样做时不会发生这种情况df[1:136]。为最终结果建立索引时也会发生同样的情况：df <- df[,-c(vector of columns)]将所有选定的列读入内存。

na_cols <- logical(136)
for (i in seq_len(136)) {
  na_cols[i] <- all(is.na(df[[i]]))
}

res <- df[!na_cols]

score 0 · Accepted Answer

试试这个例子：

#dummy data
df <- sample(1000000*5)
df <- data.frame( matrix(df,nrow = 1000000))
df$X3 <- NA
df$X6 <- NA

#list of col to remove or keep
colToRemove <- colnames(df)[ colSums(is.na(df[ ,1:6])) == nrow(df) ]
colToKeep <- setdiff(colnames(df), colToRemove)

#subset
res <- df[, colToKeep]

colnames(df)
#[1] "X1" "X2" "X3" "X4" "X5" "X6"
colnames(res)
#[1] "X1" "X2" "X4" "X5"

r - 在大型 ffdfs 上使用 apply

2 回答 2

Related

Reference