r - 在R中逐个折叠数据

Question

我正在使用一个数据集，其中包含有关反人口贩运组织的信息。组织由组织名称或组织主页的 Web 地址标识。我想根据具体情况有条件地折叠此数据框，以便留下一组唯一的标识符（对于我的数据，组织名称或组织的网址）对于每个案例，以及这些案例的大约 1000 多个数字属性，这些数字属性是在崩溃之前标识符关联的行的最高或最低值。为了举例说明这一点，我想转：

> df1
x      y     z
Item1  0     3
Item1  1     4
Item2  1     2
Item3  1     3
Item2  1     5
Item3  1     2
Item4  0     2

进入类似的东西

> df2
x     y      z
Item1  1     3
Item2  1     2
Item3  1     2
Item4  0     2

当然，在这个例子中，我想保留 Var2 的最大值和 Var3 的最小值，并且只保留唯一的 Var1 值。

任何人都可以建议一种系统的方法来为大型数据集执行此操作吗？在此先感谢您的帮助！

score 6 · Accepted Answer

一种选择是使用该plyr软件包：

library(plyr)
ddply(df, .(x), summarize, y=max(y), z=min(z))
      x y z
1 Item1 1 3
2 Item2 1 2
3 Item3 1 2
4 Item4 0 2

或者，同样简单的是 package data.table。如果您的数据非常大，此选项可能会大大加快速度。

library(data.table)
data.table(df)[, list(y=max(y), z=min(z)), by=x]
       x y z
1: Item1 1 3
2: Item2 1 2
3: Item3 1 2
4: Item4 0 2

score 3 · Accepted Answer

我认为您可能应该选择 Andrie 的，因为他为您提供了 data.table 方法，这种方法可以说更干净，当然也更快，但是在类别中处理不同结果的“经典”方法是使用lapply(split(...))：

> do.call(rbind, lapply( split(df1, df1$x) , function (d) data.frame(x=d$x[1], 
                                                          mx.y=max(d$y), mn.z=min(d$z)
             ) ) )

          x mx.y mn.z
Item1 Item1    1    3
Item2 Item2    1    2
Item3 Item3    1    2
Item4 Item4    0    2

score 2 · Accepted Answer

由于y和z表示行数，因此本质上是正数，因此您可以使用这种简单的方法：

aggregate(cbind(y, -z) ~ x, df1, function(x) abs(max(x)))

      x y -z
1 Item1 1  3
2 Item2 1  2
3 Item3 1  2
4 Item4 0  2

score 2 · Accepted Answer

library(plyr)
V1 <- sample(10, 100, replace=TRUE)
V2 <- sample(100, 100, replace=TRUE)
V3 <- sample(100, 100, replace=TRUE)

df <- data.frame(V1=V1, V2=V2, V3=V3)

ddply(df, "V1", function(x) c(max(x$V2), min(x$V3)))

r - 在R中逐个折叠数据

4 回答 4

Related

Reference