r - 如何将返回具有因子的数据帧的函数应用于序列

Question

如何将返回带有因子的 data.frame 的函数应用于序列？

例子：

s <- factor(c(10, 20, 30))
t <- factor(c("a", "b", "a"))
v <- c(5, 6, 4)

df <- data.frame(s,t,v)

所以 data.frame df 是这样的：

我还有一个返回 data.frame 的函数：

simpleFunc2 <- function(df, x){
  tmp <- subset(df, df$s == x)
  return(tmp)
}

现在我有一个序列

x <- c(20, 30, 10, 30, 10)

并希望结果 auf 将函数 simpleFunc2 应用于此序列。

我用 sapply

sapply(x, function(x) simpleFunc2(df, x))

但我明白了

  [,1]     [,2]     [,3]     [,4]     [,5]    
s factor,1 factor,1 factor,1 factor,1 factor,1
t factor,1 factor,1 factor,1 factor,1 factor,1
v 6        4        5        4        5

如何获得正确的因子值？

这个例子被简化了。因此，在这种情况下，也许有一种更简单的方法可以做到这一点。

score 17 · Accepted Answer

17

尝试lapply改为do.call：

do.call(rbind, lapply(x, function(x) simpleFunc2(df=df, x)))

于 2013-01-06T19:56:39.210 回答

score 5 · Accepted Answer

我看到您已经回答了您的问题，但我认为您从该数据框中选择超集的方法过于复杂。（如果该功能不具有代表性，我深表歉意。我想提供一种比通过更快的提取方法subset：

> df[ match(x, df$s), ]
     s t v
2   20 b 6
3   30 a 4
1   10 a 5
3.1 30 a 4
1.1 10 a 5
# Save results as from:
> do.call(rbind, lapply(x, function(x) simpleFunc2(df, x)) )
    s t v
2  20 b 6
3  30 a 4
31 10 a 5
32 30 a 4
5  10 a 5

score 0 · Accepted Answer

我不太明白这个问题，但两个答案都表明至少有一种简单的方法一直缺失。打字通常很方便

merge(df,as.data.frame(x),by=1)

获得具有正确行/列名称的排序输出

在性能方面，所提出的方法无法与采用“匹配”的方法竞争，但在接受的答案中很容易击败该方法。

   microbenchmark::microbenchmark(
 do.call=do.call(rbind, lapply(x, function(x) simpleFunc2(df, x))),
 match=df[match(x, df$s), ],
 merge= merge(df,as.data.frame(x),by=1))

.

Unit: microseconds
    expr      min       lq    median        uq      max neval
 do.call 2487.451 2523.033 2547.4060 2604.3850 9554.748   100
   match  175.117  180.197  183.2465  187.8135  248.835   100
   merge 1020.307 1035.062 1049.4835 1071.6575 8057.059   100

r - 如何将返回具有因子的数据帧的函数应用于序列

3 回答 3

Related

Reference