r - 聚合的意外输出

Question

在这里尝试aggregate另一个问题时，我遇到了一个相当奇怪的结果。我无法弄清楚为什么，我想知道我所做的是否完全错误。

假设，我有一个data.frame这样的：

df <- structure(list(V1 = c(1L, 2L, 1L, 2L, 3L, 1L), 
                     V2 = c(2L, 3L, 2L, 3L, 4L, 2L), 
                     V3 = c(3L, 4L, 3L, 4L, 5L, 3L), 
                     V4 = c(4L, 5L, 4L, 5L, 6L, 4L)), 
                  .Names = c("V1", "V2", "V3", "V4"), 
        row.names = c(NA, -6L), class = "data.frame")
> df
#   V1 V2 V3 V4
# 1  1  2  3  4
# 2  2  3  4  5
# 3  1  2  3  4
# 4  2  3  4  5
# 5  3  4  5  6
# 6  1  2  3  4

现在，如果我想输出一个data.frame具有唯一行的附加列，该列指示它们在df. 对于这个例子，

#   V1 V2 V3 V4 x
# 1  1  2  3  4 3
# 2  2  3  4  5 2
# 3  3  4  5  6 1

我通过以下实验获得了这个输出aggregate：

> aggregate(do.call(paste, df), by=df, print)

# [1] "1 2 3 4" "1 2 3 4" "1 2 3 4"
# [1] "2 3 4 5" "2 3 4 5"
# [1] "3 4 5 6"
#   V1 V2 V3 V4                         x
# 1  1  2  3  4 1 2 3 4, 1 2 3 4, 1 2 3 4
# 2  2  3  4  5          2 3 4 5, 2 3 4 5
# 3  3  4  5  6                   3 4 5 6

所以，这给了我粘贴的字符串。因此，如果我使用length而不是print，它应该给我这样的出现次数，这是期望的结果，就是这种情况（如下所示）。

> aggregate(do.call(paste, df), by=df, length)
#   V1 V2 V3 V4 x
# 1  1  2  3  4 3
# 2  2  3  4  5 2
# 3  3  4  5  6 1

这似乎奏效了。但是，当data.frame维度为 4*2500 时，输出data.frame为 1*2501 而不是 4*2501（所有行都是唯一的，因此频率为 1）。

> df <- as.data.frame(matrix(sample(1:3, 1e4, replace = TRUE), nrow=4))
> o <- aggregate(do.call(paste, df), by=df, length)
> dim(o)
# [1]    1 2501

我用只有唯一行的较小的 data.frames 进行了测试，它给出了正确的输出（nrow=40例如 change ）。但是，当矩阵的维度增加时，这似乎不起作用。我就是不知道出了什么问题！有任何想法吗？

score 10 · Accepted Answer

这里的问题是如何aggregate.data.frame()确定组。

其中aggregate.data.frame()有一个形成分组变量的循环grp。在该循环中，grp通过以下方式更改/更新：

grp <- grp * nlevels(ind) + (as.integer(ind) - 1L)

如果曾经by将其转换为因子，并且循环已经遍历了所有这些因子，那么您的示例的问题grp最终是：

Browse[2]> grp
[1] Inf Inf Inf Inf

本质上，循环更新将的值推grp送到一个与 . 无法区分的数字Inf。

做完之后再做aggregate.data.frame()这个

y <- y[match(sort(unique(grp)), grp, 0L), , drop = FALSE]

这就是之前的问题现在表现出来的地方

dim(y[match(sort(unique(grp)), grp, 0L), , drop = FALSE])

因为

match(sort(unique(grp)), grp, 0L)

显然只返回1：

> match(sort(unique(grp)), grp, 0L)
[1] 1

因为只有一个唯一值grp。

r - 聚合的意外输出

1 回答 1

Related

Reference