9

我想将 data.table 流水线与 magrittr 流水线混合。我可以从 data.table 转到 %>% 但我不知道如何返回 [][] data.table 样式的流水线。

这是一个例子:

> tbl = data.table(grp=c(1,1,1,2,2,2,3,3,3,4,4), y=rnorm(11))
> tbl
    grp        y
 1:   1  0.08150
 2:   1  1.51330
 3:   1 -0.26154
 4:   2 -0.12746
 5:   2  0.10747
 6:   2  0.16502
 7:   3  0.54139
 8:   3 -0.04194
 9:   3  0.02373
10:   4  2.00756
11:   4  1.05523
> tbl[, .(.N, mean(y)), by=grp][order(-N)] %>% head(n=3) %>% .[, N := NULL]
   grp      V2
1:   1 0.44442
2:   2 0.04834
3:   3 0.17439
> tbl[, .(.N, mean(y)), by=grp][order(-N)] %>% head(n=3) %>% .[, N := NULL][, plot(grp, V2)]
Error in `[.data.table`(., .[, `:=`(N, NULL)], , plot(grp, V2)) : 
  'by' or 'keyby' is supplied but not j
Calls: %>% ... freduce -> withVisible -> <Anonymous> -> [ -> [.data.table
> 

如何在 %>% 之后返回 [][] ?

我知道这个特定的示例可以完全用 [] 重写,而没有 %>%,但我对每次都这样做并不感兴趣。我想要一种能够编写 [][] %>% [][] 模式的方法。

4

3 回答 3

3

前面的两个答案都忽略了您在某种程度上指定优先级的能力。%>%您可以通过将其包含在{}s中来提高代码部分的优先级来做到这一点:

x <- data.frame(a=1:5, b=6:10)
{x %>% subset(a<4) %>% data.table()}[, mean(b)]

不漂亮,但它有效:

> {x %>% subset(a<4) %>% data.table()} [, mean(b)]
[1] 7
于 2017-05-02T20:45:24.230 回答
2

你可以做

 `tbl %>% filter(y>0) %>% data.table()` 

将管道结果转换为data.table,例如,为了很好地打印结果 - 以某种data.table方式。但是,不幸的是,你不能做类似的事情

 `tbl %>% filter(y>0) %>% data.table() [, mean(y), by=group]

我想知道,是否可以将此功能添加到未来的 data.table 版本中 - 可能通过新语法(以克服优先顺序限制,因为“[”在“<”之前执行)。

于 2017-04-12T19:30:05.260 回答
1

你不能。[优先级高于%any%,所以它总是首先被评估。

于 2015-03-08T15:13:38.503 回答