22

我想为 data.frame 中的大多数变量名称添加后缀或前缀,通常是在它们都以某种方式进行转换之后和执行连接之前。我没有办法在不破坏管道的情况下做到这一点。

例如,使用此数据:

library(dplyr)
set.seed(1)
dat14 <- data.frame(ID = 1:10, speed = runif(10), power = rpois(10, 1),
                    force = rexp(10), class = rep(c("a", "b"),5))

我想得到这个结果(注意变量名):

  class speed_mean_2014 power_mean_2014 force_mean_2014
1     a       0.5572500             0.8       0.5519802
2     b       0.2850798             0.6       1.0888116

我目前的做法是:

means14 <- dat14 %>%
  group_by(class) %>%
  select(-ID) %>%
  summarise_each(funs(mean(.)))  

names(means14)[2:length(names(means14))] <- paste0(names(means14)[2:length(names(means14))], "_mean_2014")

有没有替代那个打破我管道的笨重的最后一行?我已经看过select()rename()不想明确指定每个变量名称,因为我通常想重命名单个变量之外的所有变量,并且可能具有比本示例中更宽的 data.frame。

我正在想象一个最终的管道命令,它近似于这个虚构的函数:

appendname(cols = 2:n, str = "_mean_2014", placement = "suffix")

据我所知,这是不存在的。

4

6 回答 6

36

您可以将函数传递给 rename_at,也可以这样做

 means14 <- dat14 %>%
  group_by(class) %>%
  select(-ID) %>%
  summarise_all(funs(mean(.))) %>% 
  rename_at(vars(-class),function(x) paste0(x,"_2014"))
于 2018-05-23T10:38:59.207 回答
7

在发布此问题后进行了额外的实验后,我发现该setNames函数将与管道一起使用,因为它返回一个 data.frame:

dat14 %>%
  group_by(class) %>%
  select(-ID) %>%
  summarise_each(funs(mean(.))) %>%
  setNames(c(names(.)[1], paste0(names(.)[-1],"_mean_2014"))) 

  class speed_mean_2014 power_mean_2014 force_mean_2014
1     a       0.5572500             0.8       0.5519802
2     b       0.2850798             0.6       1.0888116
于 2015-04-29T17:56:15.210 回答
6

这有点快,但不完全是你想要的:

dat14 %>%
  group_by(class) %>%
  select(-ID) %>%
  summarise_each(funs(mean(.))) -> means14 

names(means14)[-1] %<>% paste0("_mean_2014")

如果您之前没有使用过 %<>% 运算符,请务必查看此链接,它是一个超级有用的工具。

你也可以用它来重新计算或四舍五入一些列,像这样df$meancolumn %<>% round(),等等,它只是经常出现,只是为你节省了大量的写作

于 2015-04-29T16:08:20.790 回答
4

从 2017 年 2 月起,您可以使用 dplyr 命令执行此操作rename_(...)

在此示例中,您可以这样做。

dat14 %>%
  group_by(class) %>%
  select(-ID) %>%
  summarise_each(funs(mean(.))) %>%
  rename_(names(.)[-1], paste0(names(.)[-1],"_mean_2014"))) 

这与答案非常相似,set_names但也适用于小标题!

于 2017-02-05T18:29:59.113 回答
0

这更像是退后一步,但您可能会考虑重塑数据,以便将函数同时应用于多年。这将保持整洁。如果您最终想要比较不同的年份,将年份作为数据框中的单独变量而不是将年份存储在名称中可能是有意义的。您应该能够使用 summarise_ 来获得 mean_year 行为。见http://cran.r-project.org/web/packages/dplyr/vignettes/nse.html

library(dplyr)
library(tidyr)
set.seed(1)
dat14 <- data.frame(ID = 1:10, speed = runif(10), power = rpois(10, 1),
                    force = rexp(10), class = rep(c("a", "b"),5))

dat14 %>% 
  gather(variable, value, -ID, -class) %>% 
  mutate(year = 2014) %>% 
  group_by(class, year, variable)%>% 
  summarise(mean = mean(value))`
于 2015-04-30T19:58:34.733 回答
0

虽然使用 ist 的 Sam Firkes 解决方案setNames()肯定是保持管道不间断的唯一解决方案,但它不适用于tbl来自 的对象dplyr,因为通常的基本 R 命名函数中的方法无法访问列名。由于hrbrmstr的这个解决方案,这里有一个函数,您也可以在带有tbl对象的管道中使用它。它在指定的列索引处添加预定义的前缀和后缀。默认为所有列。

tbl.renamer <- function(tbl,prefix="x",suffix=NULL,index=seq_along(tbl_vars(tbl))){
  newnames <- tbl_vars(tbl) # Get old variable names
  names(newnames) <- newnames
  names(newnames)[index] <- paste0(prefix,".",newnames,suffix)[index] # create a named vector for .dots
  rename_(tbl,.dots=newnames) # rename the variables
}

示例用法(假设auth_usersbeeing 一个tbl_sql对象):

auth_user %>% tbl_vars
tbl.renamer(auth_user) %>% tbl_vars
auth_user %>% tbl.renamer %>% tbl_vars
auth_user %>% tbl.renamer(index = c(1,5)) %>% tbl_vars
于 2016-01-22T10:53:08.853 回答