0

希望创建一个函数。

我想在给定组中添加观察的出现次数(例如 5、5 次出现 2 次)。一周内相同的天数将按业务相加。总和值将在新行“总出现次数”中。

tapply 或 plyr 可以解决这个问题,但是我遇到了一些细微差别。

谢谢!

14X3 matrix

Business           Week        Days
A                **1**         3
A                **1**         3
A                **1**         1 
A                  2           4 
A                  2           1
A                  2           1 
A                  2           6    
A                  2           1
B                **1**         1
B                **1**         2
B                **1**         7
B                  2           2
B                  2           2
B                  2           na

**AND BECOME**

10X4 matrix

Business            Week       Days      Total-Occurrences 
A                 **1**        3         2
A                 **1**        1         1
A                   2          1         3
A                   2          4         1
A                   2          6         1
B                 **1**        1         1
B                 **1**        2         1
B                 **1**        7         1
B                   3          2         2
B                   2          na        0
4

1 回答 1

1

如果我正确理解您的问题,您希望通过BusinessandWeek和and 对数据框进行分组,Days并计算每个组在新列中的出现次数Total-Occurences

df <- structure(list(Business = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("A", "B"), class = "factor"), 
Week = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 
1L, 2L, 2L, 2L), .Label = c("**1**", "2"), class = "factor"), 
Days = structure(c(3L, 3L, 1L, 4L, 1L, 1L, 5L, 1L, 1L, 2L, 
6L, 2L, 2L, 7L), .Label = c("1", "2", "3", "4", "6", "7", 
"na"), class = "factor")), .Names = c("Business", "Week", 
"Days"), class = "data.frame", row.names = c(NA, -14L))

当然有不同的方法可以做到这一点。一种方法是使用dplyr

require(dplyr)

result <- df %.%
  group_by(Business,Week,Days) %.%
  summarize(Total.Occurences = n())

#>result

#   Business  Week Days Total.Occurences
#1         A **1**    1                1
#2         A **1**    3                2
#3         A     2    1                3
#4         A     2    4                1
#5         A     2    6                1
#6         B **1**    1                1
#7         B **1**    2                1
#8         B **1**    7                1
#9         B     2    2                2
#10        B     2   na                1

你也可以使用plyr

require(plyr)

ddply(df, .(Business, Week, Days), nrow)

请注意,基于这些功能,输出将与您在问题中发布的内容略有不同。我认为这可能是一个错字,因为在您的原始数据中没有第 3 周,但在您想要的输出中有。

在这两种解决方案之间,该dplyr方法可能更快。

我想还有其他方法可以做到这一点(但我不确定tapply)

于 2014-05-08T18:34:52.360 回答