我想了解如何将表示表达式的字符串传递给 dplyr,以便字符串中提到的变量被评估为数据框中列上的表达式。关于这个主题的主要小插曲涵盖了 quosures 的传递,并且根本不讨论字符串。
很明显,在表示表达式时,quosures 比字符串更安全、更清晰,所以当可以使用 quosures 代替时,我们当然应该避免使用字符串。但是,当使用 R 生态系统之外的工具时,例如 javascript 或 YAML 配置文件,通常必须使用字符串而不是 quosures。
例如,假设我想要一个使用用户/调用者传入的表达式进行分组计数的函数。正如预期的那样,以下代码不起作用,因为 dplyr 使用非标准评估来解释group_by
.
library(tidyverse)
group_by_and_tally <- function(data, groups) {
data %>%
group_by(groups) %>%
tally()
}
my_groups <- c('2 * cyl', 'am')
mtcars %>%
group_by_and_tally(my_groups)
#> Error in grouped_df_impl(data, unname(vars), drop): Column `groups` is unknown
在 dplyr 0.5 中,我们将使用标准评估,例如group_by_(.dots = groups)
,来处理这种情况。既然不推荐使用下划线动词,我们应该如何在 dplyr 0.7 中做这种事情?
在只是列名的表达式的特殊情况下,我们可以使用这个问题的解决方案,但它们不适用于更复杂的表达式2 * cyl
,例如不仅仅是列名。