问题
通过使用dplyr::summarize_at()
(或等效),我想得到一个汇总表,其中列首先按(G)使用的分组变量顺序排序,然后按(V)传递的变量顺序,最后按(F)函数顺序应用。默认顺序首先由 G 确定,然后由 F 确定,最后由 V 确定。
例子
编码:
library(purrr)
library(dplyr)
q025 <- partial(quantile, probs = 0.025, na.rm = TRUE)
q975 <- partial(quantile, probs = 0.975, na.rm = TRUE)
vars_to_summarize <- c("height", "mass")
my_summary <- starwars %>%
filter(skin_color %in% c("gold", "green")) %>%
group_by(skin_color) %>%
summarise_at(vars_to_summarize, funs(q025, mean, q975))
结果是:
my_summary
## A tibble: 2 x 7
## skin_color height_q025 mass_q025 height_mean mass_mean height_q975 mass_q975
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 gold 167.000 75.0 167 75 167.00 75.0
## 2 green 79.375 22.7 169 NA 204.75 110.4
所需的变量顺序应该是:
skin_color, height_q025, height_mean, height_q975, mass_q025, mass_mean, mass_q975
我想使用这样的(天真的简单)代码:
my_summary %>%
select(everything(), starts_with(vars_to_summarize))
但它不起作用。即使此代码也无法按我的预期工作(即使它不是我寻求的通用解决方案):
my_summary %>%
select(everything(),
starts_with(vars_to_summarize[1]),
starts_with(vars_to_summarize[2]))
很可能everything()
应该始终是select()
.
概括
说,我有:
- 我传递给的N个分组变量(“gr_”)
group_by()
, - L必须汇总的变量(“var_”)和
- 要应用的M个汇总函数(“fun_”)。
通常,汇总表中所需的变量顺序应遵循以下模式:
gr_1, gr_2, ..., gr_N,
var_1_fun_1, var_1_fun_2, ..., var_1_fun_M,
var_2_fun_1, var_2_fun_2, ..., var_2_fun_M,
...,
var_L_fun_1, var_L_fun_2, ..., var_L_fun_M