9

假设我们有一个字符向量cols_to_select,其中包含我们要从数据框中选择的一些列df,例如

df <- tibble::data_frame(a=1:3, b=1:3, c=1:3, d=1:3, e=1:3)
cols_to_select <- c("b", "d")

假设我们也想使用dplyr::select它,因为它是使用的操作的一部分,%>%因此使用select使代码易于阅读。

似乎有许多方法可以实现这一点,但有些方法比其他方法更强大。请你能告诉我哪个是“正确”的版本,为什么?或者也许还有另一种更好的方法?

dplyr::select(df, cols_to_select) #Fails if 'cols_to_select' happens to be the name of a column in df 
dplyr::select(df, !!cols_to_select) # i.e. using UQ()
dplyr::select(df, !!!cols_to_select) # i.e. using UQS()

cols_to_select_syms <- rlang::syms(c("b", "d"))  #See [here](https://stackoverflow.com/questions/44656993/how-to-pass-a-named-vector-to-dplyrselect-using-quosures/44657171#44657171)
dplyr::select(df, !!!cols_to_select_syms)

ps我意识到这可以在base R中简单地使用df[,cols_to_select]

4

1 回答 1

6

dplyr::selecthttps://cran.r-project.org/web/packages/rlang/vignettes/tidy-evaluation.html中有一个例子,它使用:

dplyr::select(df, !!cols_to_select)

为什么?让我们探索您提到的选项:

选项1

dplyr::select(df, cols_to_select)

正如您所说,如果cols_to_select恰好是 df 中列的名称,这将失败,所以这是错误的。

选项 4

cols_to_select_syms <- rlang::syms(c("b", "d"))  
dplyr::select(df, !!!cols_to_select_syms)

这看起来比其他解决方案更复杂。

选项 2 和 3

dplyr::select(df, !!cols_to_select)
dplyr::select(df, !!!cols_to_select)

在这种情况下,这两种解决方案提供了相同的结果。您可以通过执行以下操作查看!!cols_to_select输出!!!cols_to_select

dput(rlang::`!!`(cols_to_select)) # c("b", "d")
dput(rlang::`!!!`(cols_to_select)) # pairlist("b", "d")

!!or运算符立即在其UQ()上下文中评估其参数,这就是您想要的。

!!!orUQS()运算符用于一次将多个参数传递给函数。

!!对于您的示例中的字符列名称,如果您将它们作为长度为 2 的单个向量(使用)或作为具有两个长度为 1 的向量的列表(使用 )给出,则无关紧要!!!。对于更复杂的用例,您将需要使用多个参数作为列表:(使用!!!

a <- quos(contains("c"), dplyr::starts_with("b"))
dplyr::select(df, !!a) # does not work
dplyr::select(df, !!!a) # does work
于 2017-06-30T11:45:36.163 回答