r - 使用 plyr/dplyr/purrr 向数据框添加多列的方法

Question

我经常需要使用自定义函数一次通过附加的几列来改变数据框，最好是使用并行化。以下是我已经知道如何做到这一点的方法。

设置

library(dplyr)
library(plyr)
library(purrr)
library(doMC)
registerDoMC(2)

df <- data.frame(x = rnorm(10), y = rnorm(10), z = rnorm(10))

假设我想要两个新列foocol = x + y和barcol = (x + y) * 100，但这些实际上是在自定义函数中完成的复杂计算。

方法 1：使用rowwiseand分别添加列mutate

foo <- function(x, y) return(x + y)
bar <- function(x, y) return((x + y) * 100)

df_out1 <- df %>% rowwise() %>% mutate(foocol = foo(x, y), barcol = bar(x, y))

这不是一个好的解决方案，因为它需要对每行进行两次函数调用，并且需要对x + y. 它也没有并行化。

方法2：欺骗ddply行操作

df2 <- df
df2$id <- 1:nrow(df2)

df_out2 <- ddply(df2, .(id), function(r) {
  foocol <- r$x + r$y
  barcol <- foocol * 100
  return(cbind(r, foocol, barcol))
}, .parallel = T)

在这里，我通过拆分我刚刚创建的唯一列来欺骗ddply在每一行上调用一个函数。id但是，它很笨重，并且需要维护一个无用的列。

方法三：splat

foobar <- function(x, y, ...) {
  foocol <- x + y
  barcol <- foocol * 100
  return(data.frame(x, y, ..., foocol, barcol))
}

df_out3 <- splat(foobar)(df)

我喜欢这个解决方案，因为您可以df在没有数组理解的情况下引用自定义函数中的列（如果需要，可以是匿名的）。但是，此方法不是并行化的。

方法四：by_row

df_out4 <- df %>% by_row(function(r) {
  foocol <- r$x + r$y
  barcol <- foocol * 100
  return(data.frame(foocol = foocol, barcol = barcol))
}, .collate = "cols")

purrr中的by_row函数消除了对唯一列的需要，但此操作不是并行化的。id

方法五：pmap_df

df_out5 <- pmap_df(df, foobar)
# or equivalently...
df_out5 <- df %>% pmap_df(foobar)

这是我找到的最佳选择。函数族pmap还接受匿名函数以应用于参数。不过，我相信会pmap_df转换df为列表并返回，因此可能会影响性能。

function(x, y, ...)我需要在函数定义中引用我计划用于计算的所有列，而不仅仅是function(r)行对象，这也有点烦人。

我错过了任何好的或更好的选择吗？我描述的方法有什么问题吗？

score 1 · Accepted Answer

怎么用data.table？

library(data.table)

foo <- function(x, y) return(x + y)
bar <- function(x, y) return((x + y) * 100)

dt <- as.data.table(df)

dt[, foocol:=foo(x,y)]
dt[, barcol:=bar(x,y)]

该data.table库非常快，并且至少具有一些并行化的潜力。

r - 使用 plyr/dplyr/purrr 向数据框添加多列的方法

1 回答 1

Related

Reference