r - 通过对变量进行分组和子分组来查找平均值，并计算值在 R 中这些组内出现的次数

Question

我有一个包含四列数据的数据集。

我想将行按两个变量分组，将列按一个变量分组

这是我的数据示例

df <- data.frame(
Price = rnorm(24), 
Grouping = rep(c("CD", "NW", "SMK", "ghd"),6),
Sub_grouping = c("CDapple", "NWapple", "SMKapple", "ghdapple",
               "CDPear", "NWpear", "SMKpear", "ghdpear",
               "CDgrape",  "NWgrape", "SMKgrape", "ghdgrape",
               "CDapple", "NWapple", "SMKapple", "ghdapple",
               "CDPear", "NWpear", "SMKpear", "ghdpear",
               "CDgrape",  "NWgrape", "SMKgrape", "ghdgrape"),
SP = rep(c("SP", "OffSP"),12))

要获得每个子组的价格变量的平均值，我可以运行以下命令：

df <- melt(df)
df_mean <- dcast(df, Grouping + Sub_grouping ~ SP, value.var = "value",  fun.aggregate = mean)

我还想要每个分组变量的价格平均值。这可能吗？

我还想计算输入每个平均价格的价格值的数量。因此，对于每个组，按 SP 和 OffSP，输入此的价格数量；对于每个 sub_group，由 SP 和 OffSP 提供的价格数量。

有谁知道如何做到这一点？

我已经看到这些问题Create a column with a count of occurrences in R 如何计算一个值在 R 的子组中出现的实例数？但是他们的列联表是 2x2，我需要一个以分组和子组为行的表，以 SP / OffSP 作为列。

谢谢

score 2 · Accepted Answer

我们不需要将其重塑为“长”格式来获取mean值

library(dplyr)
df %>% 
   group_by(Grouping) %>% #first grouping
   #create the mean column and the count by 'Grouping'
   mutate(AvgPrice = mean(Price), n1 = n()) %>% 
   group_by(Sub_grouping, add= TRUE) %>% #second grouping
   #summarise to get the mean within Sub_grouping and count the values with n()
   summarise(AvgPrice = first(AvgPrice), n1 = first(n1), AvgPrice2 = mean(Price), n2 = n())

注意：如果我们还需要按“SP”分组，则将第一group_by条语句更改为

df
  %>%
   group_by(Grouping, SP) %>%
   ...
   ...

如果我们想为每个“SP”获取meanandlength并希望作为单独的列，那么一个紧凑的选项是可以dcast从中data.table获取多个函数和多个value.var列

library(data.table)
dcast(setDT(df), Grouping + Sub_grouping ~ SP, value.var = "Price", c(mean, length))

r - 通过对变量进行分组和子分组来查找平均值，并计算值在 R 中这些组内出现的次数

1 回答 1

Related

Reference