r - ddply 返回太多结果

Question

出于某种原因，自从升级到 R-2.13.0 并升级到 plyr_1.5.1.tar.gz 后，我得到的结果比我预期的要多……我在旧版本的 plyr 上尝试了这个（不幸的是，版本不确定我刚刚覆盖了它...）

library(plyr)
dd <-data.frame(matrix(rnorm(216),72,3),c(rep("A",24),rep("B",24),
  rep("C",24)),c(rep("J",36),rep("K",36)))
colnames(dd) <- c("v1", "v2", "v3", "dim1", "dim2")

results1 <- ddply(dd, c("dim1","dim2"), function(df) c(m1=mean(df$v1)) )
results2 <- ddply(dd, c("dim1","dim2"), function(df) { c(m1=mean(df$v1),
    m2=mean(df$v2)) } )
results3 <- ddply(dd, c("dim1","dim2"), function(df) { c(m1=mean(df$v1),
    m2=mean(df$v2), m3=mean(df$v3)) } )

我不明白为什么结果 2 的行数是 results1 的两倍，而 results3 的行数是它的三倍——原来的 results1 只是复制了两次或三次。

我使用旧版本的 plyr 获得了 R 版本 2.11.0 Patched (2010-05-01 r51907) 的方便副本，我期待的结果是……

> results1
  dim1 dim2          m1
1    A    J  0.07312783
2    B    J -0.22428746
3    B    K -0.44205832
4    C    K  0.21421456
> results2
  dim1 dim2          m1         m2
1    A    J  0.07312783 -0.1130148
2    B    J -0.22428746  0.4394832
3    B    K -0.44205832 -0.1934018
4    C    K  0.21421456 -0.0178809
> results3
  dim1 dim2          m1         m2          m3
1    A    J  0.07312783 -0.1130148 -0.03175873
2    B    J -0.22428746  0.4394832  0.21581696
3    B    K -0.44205832 -0.1934018 -0.28313530
4    C    K  0.21421456 -0.0178809 -0.21948430

我从 R 版本 2.13.0 (2011-04-13) 得到的结果

> results1
  dim1 dim2         m1
1    A    J -0.2270726
2    B    J  0.5860493
3    B    K -0.5986129
4    C    K  0.3135809
> results2
  dim1 dim2         m1          m2
1    A    J -0.2270726 -0.19037813
2    B    J  0.5860493 -0.05385395
3    B    K -0.5986129  0.29404095
4    C    K  0.3135809 -0.26744010
5    A    J -0.2270726 -0.19037813
6    B    J  0.5860493 -0.05385395
7    B    K -0.5986129  0.29404095
8    C    K  0.3135809 -0.26744010
> results3
   dim1 dim2         m1          m2          m3
1     A    J -0.2270726 -0.19037813 -0.20448734
2     B    J  0.5860493 -0.05385395 -0.11190857
3     B    K -0.5986129  0.29404095 -0.27072101
4     C    K  0.3135809 -0.26744010 -0.03184949
5     A    J -0.2270726 -0.19037813 -0.20448734
6     B    J  0.5860493 -0.05385395 -0.11190857
7     B    K -0.5986129  0.29404095 -0.27072101
8     C    K  0.3135809 -0.26744010 -0.03184949
9     A    J -0.2270726 -0.19037813 -0.20448734
10    B    J  0.5860493 -0.05385395 -0.11190857
11    B    K -0.5986129  0.29404095 -0.27072101
12    C    K  0.3135809 -0.26744010 -0.03184949

为什么 results2 有 8 行而不是 4 行，而 results3 有 12 行而不是 4 行？

谢谢，肖恩

score 5 · Accepted Answer

5

这将很快在plyr 1.5.2

于 2011-04-15T13:32:04.633 回答

score 5 · Accepted Answer

这是导致问题的 ddply() 中的 c() 函数。

以下是您可以为 results3 编写语句的三种替代方法，它们会逐渐变得更简单：

在你的函数中使用 data.frame ：

ddply(dd, c("dim1","dim2"), function(df) {data.frame(m1=mean(df$v1), m2=mean(df$v2), m3=mean(df$v3)) } )
使用总结：

ddply(dd, .(dim1, dim2), summarise, m1=mean(v1), m2=mean(v2), m3=mean(v3))
使用 numcolwise。

ddply(dd, .(dim1, dim2), numcolwise(mean))

在每种情况下，结果都是您所期望的：

  dim1 dim2          m1         m2          m3
1    A    J -0.04272659 -0.1468376  0.17902942
2    B    J -0.10133503 -0.1427358 -0.05241214
3    B    K  0.29698847 -0.0989732  0.14422812
4    C    K  0.04108324  0.2014864 -0.15893221

r - ddply 返回太多结果

2 回答 2

Related

Reference