3

我想在不删除空级别的情况下汇总或汇总表格。我想知道是否有人对此有任何想法?

例如,这是一个数据框

df1<-data.frame(Method=c(rep("A",3),rep("B",2),rep("C",4)),
       Type=c("Fast","Fast","Medium","Fast","Slow","Fast","Medium","Slow","Slow"),
            Measure=c(1,1,2,1,3,1,1,2,2))

使用 base 和doBypackage 的两种方法。

#base
aggregate(Measure~Method+Type,data=df1,FUN=length)

require(doBy)
summaryBy(Measure~Method+Type,data=df1,FUN=length)

它们都给出了排序不同的相同结果,但问题是我希望所有方法和类型的组合以及作为 NA 插入的缺失度量。或者我的两个因素的所有水平都必须保持。

df1$Type
df1$Method

也许plyr有一些东西,但我不知道它是如何工作的。

4

5 回答 5

4

看看tapply

with(df1, tapply(Measure, list(Method, Type), FUN = length))

#   Fast Medium Slow
# A    2      1   NA
# B    1     NA    1
# C    1      1    2
于 2014-01-06T20:29:53.960 回答
1

您可以尝试by()使用 base R。例如,

tab <- with(df1, by(df1, list(Method = Method, Type = Type), FUN = length))
Method: A
Type: Fast
[1] 2
------------------------------------------------------------ 
Method: B
Type: Fast
[1] 1
------------------------------------------------------------ 
Method: C
Type: Fast
[1] 1
------------------------------------------------------------ 
Method: A
Type: Medium
[1] 1
------------------------------------------------------------ 
Method: B
Type: Medium
[1] NA
------------------------------------------------------------ 
Method: C
Type: Medium
[1] 1
------------------------------------------------------------ 
Method: A
Type: Slow
[1] NA
------------------------------------------------------------ 
....

请注意,这只是print()使它看起来复杂的方法。如果我们unclass() tab,我们看到它在这个实例中只是一个多路表:

R> unclass(tab)
      Type
Method Fast Medium Slow
     A    2      1   NA
     B    1     NA    1
     C    1      1    2
attr(,"call")
by.data.frame(data = df1, INDICES = list(Method = Method, Type = Type), 
    FUN = nrow)

你可以使用它,因为它只是一个数组(矩阵)。如果您更喜欢长格式,您可以轻松展开它:

nr <- nrow(tab)
ltab <- cbind.data.frame(Method = rep(rownames(tab), times = nr),
                         Type = rep(colnames(tab), each = nr),
                         Count = c(tab))
ltab

R> ltab
  Method   Type Count
1      A   Fast     2
2      B   Fast     1
3      C   Fast     1
4      A Medium     1
5      B Medium    NA
6      C Medium     1
7      A   Slow    NA
8      B   Slow     1
9      C   Slow     2
于 2014-01-06T20:31:55.783 回答
1

在基础 R 中,by将返回缺失值的结果。

result <- by(df1, INDICES=list(df1$Method, df1$Type), FUN=nrow)
cbind(expand.grid(attributes(result)$dimnames), as.vector(result))

#   Var1   Var2 as.vector(result)
# 1    A   Fast                 2
# 2    B   Fast                 1
# 3    C   Fast                 1
# 4    A Medium                 1
# 5    B Medium                NA
# 6    C Medium                 1
# 7    A   Slow                NA
# 8    B   Slow                 1
# 9    C   Slow                 2
于 2014-01-06T20:31:42.667 回答
0

感谢您的回答。我认为他们都努力给出结果。但是 Mark Heckmann 对此代码的评论

ddply(df1, .(Method, Type), summarise, Measure=length(Measure), .drop=F)

似乎提供了一个漂亮干净的输出数据帧,具有良好的标头和最少的代码。不利的一面是,它需要额外的软件包。

于 2014-01-06T20:57:50.767 回答
0

2021 年更新

我认为现在可以stats::aggregate()使用drop = FALSE. 不需要额外的软件包。结果是一个常规的 ole 数据框,其中空级别为NA.

aggregate(Measure ~ Method + Type, data = df1, FUN = length, drop = FALSE)

  Method   Type Measure
1      A   Fast       2
2      B   Fast       1
3      C   Fast       1
4      A Medium       1
5      B Medium      NA
6      C Medium       1
7      A   Slow      NA
8      B   Slow       1
9      C   Slow       2
于 2021-06-18T12:19:17.997 回答