20

我有一个如下数据框:

a   b1  b2  b3  b4  b5  b6  b7  b8  b9
D   4   6   9   5   3   9   7   9   8
F   7   3   8   1   3   1   4   4   3
R   2   5   5   1   4   2   3   1   6
D   9   2   1   4   3   3   8   2   5
D   5   4   3   1   6   4   1   8   3
R   3   7   9   1   8   5   3   4   2
D   4   1   8   2   6   3   2   7   5
F   7   1   7   2   7   1   6   2   4
D   6   3   9   3   9   9   7   1   2

该函数tapply(df[,2], INDEX = df$a, sum)可以很好地生成一个表格,该表格将 df[,2] 中的所有内容与 df$a 相加,但是当我尝试tapply(df[,2:10], INDEX = df$a, sum)获得一个类似的表格时,除了每列的总和(2、3、4,..., 10),我收到一条错误消息:

tapply(df[, 2:10], INDEX = df$a, sum) 中的错误:参数必须具有相同的长度

另外,我希望表的行名是 的列名df[,2:10],例如第 1 行是 b1,第 2 行是 b2,第 9 行是 b9。

4

3 回答 3

22

这是因为 tapply 对向量起作用,并将 df[,2:10] 转换为向量。接下来, sum 将为您提供总和,而不是每列的总和。使用aggregate(),例如:

aggregate(df[,2:10],by=list(df$a), sum)

如果你想返回一个列表,你可以使用 by() 。确保指定 colSums 而不是 sum,因为它适用于拆分的数据帧:

by(df[,2:10],df$a,FUN=colSums)
于 2011-08-11T16:52:45.467 回答
8

另一种可能性是结合applytapply

apply(df[,-1], 2, function(x) tapply(x, df$a, sum))

将产生输出(这是一个矩阵)

    b1  ...   b9
D   sD1 ...  sD9
F   sF1 ...  sF9
R   sR1 ...  sR9

然后,您可以使用as.data.frame()来获取数据框作为输出。

于 2014-05-13T11:57:39.603 回答
6

这是一种适用data.table于这个问题的方法。

library(data.table)
DT <- data.table(df)
DT[, lapply(.SD, sum), by=a]

这是一种dplyr方法

library(dplyr)
df %>% group_by(a) %>% summarise_all(funs(sum))
于 2015-06-01T07:19:26.663 回答