1

我有一个函数可以计算基于变量内容选择的列的分组数据库的平均值VarName。当前函数使用dplyr::summarize_,但现在我看到它已被弃用,我想在它完全删除之前替换它。

但是,我不确定如何使用新的取消引用来实现我想要做的事情。这是我当前的代码:

means<-summarize_(group_by(dat,Grade),.dots = setNames(paste0('mean(',VarName,',na.rm=TRUE)'),'means'))

我尝试用 替换该.dots部分means=mean(!!VarName, na.rm=TRUE),但这只是返回了 VarName 中的字符串。我需要将 VarName 中的字符串评估为 中的列名dat,这样我将得到一个列名“means”,其中包含每个组的平均值。我怎样才能用新的实现这一目标summarize

可重复性的样本数据集:

VarName<-"Things"
dat<-data.frame(students=c("a","b","c","d","e"),Grade=c(2,2,2,3,3),varA=c(41:45),Things=c(90,100,80,75,80))

谢谢!

4

2 回答 2

4

将其转换为函数并泛化为任意数据、分组变量和值变量:

library(tidyverse)

means <- function(data, group, value) {

  group = enquo(group)
  value = enquo(value)
  value_name = paste0("mean_", value)[2]

  data %>% group_by(!!group) %>% 
    summarise(!!value_name := mean(!!value, na.rm=TRUE))
}

means(dat, Grade, Things)
  Grade mean_Things
  <dbl>       <dbl>
1  2.00        90.0
2  3.00        77.5

如果我理解你的评论,下面的函数怎么样,它接受一个字符串作为value参数:

means <- function(data, group, value) {

  group = enquo(group)
  value_name = paste0("mean_", value)
  value = sym(value)

  data %>% group_by(!!group) %>% 
    summarise(!!value_name := mean(!!value, na.rm=TRUE))
}

VarName = "Things"

means(dat, Grade, VarName)
  Grade mean_Things
  <dbl>       <dbl>
1  2.00        90.0
2  3.00        77.5

由于该函数是通用的,因此您可以对任何数据框执行此操作。例如:

means(mtcars, cyl, "mpg")
    cyl mean_mpg
  <dbl>    <dbl>
1  4.00     26.7
2  6.00     19.7
3  8.00     15.1

您可以进一步概括该功能。例如,此版本采用任意数量的分组列:

means <- function(data, value, ...) {

  group = quos(...)
  value_name = paste0("mean_", value)
  value = sym(value)

  data %>% group_by(!!!group) %>% 
    summarise(!!value_name := mean(!!value, na.rm=TRUE))
}

VarName = "Things"

means(dat, VarName, students, Grade)
  students Grade mean_Things
  <fct>    <dbl>       <dbl>
1 a         2.00        90.0
2 b         2.00       100  
3 c         2.00        80.0
4 d         3.00        75.0
5 e         3.00        80.0
于 2018-03-29T01:53:03.770 回答
1

!!as.name或一起使用as.symbol

dat %>% 
    group_by(Grade) %>% 
    summarize(means = mean(!!as.name(VarName), na.rm=T))
    # or summarize(means = mean(!!as.symbol(VarName), na.rm=T))

# A tibble: 2 x 2
#  Grade means
#  <dbl> <dbl>
#1  2.00  90.0
#2  3.00  77.5
于 2018-03-29T01:50:01.693 回答