0

我的出发点是 ggraph 包中的辉格党数据。它包含一个关联矩阵。

现在,对于列/变量的每个组合,我想知道是否所有列都是 1,如果确实所有列都是 1,则为该组合创建一个新列,如果不是,则为 0。

辉格党数据只是一个例子:我正在寻找一种可以使用的向量化方法,无论列/组合的数量如何。

使用 dplyr,我可以across()mutate()函数中使用创建多个新列,但我不知道如何根据列的各种组合创建这些列。

同样使用 dplyr,我可以c_across()mutate()函数中与rowwise()函数一起使用,根据多列中的值创建一个新列。

也许这两者可以以某种方式结合起来?

4

1 回答 1

0

你可以试试

library(dplyr)
df <- data.frame(A = rep(0, 4), 
                 B = c(1, 0, 0, 1), 
                 C = c(0, 1, 1, 0), 
                 D = c(0, 1, 1 ,1))
cols  <- 1:ncol(df)

combs  <- unlist(sapply(cols[-1], function(x) {
  asplit(combn(cols, m = x), 2)
}), recursive = FALSE)

lapply(combs, function(x) {
  df <<- df %>% mutate(!!paste0(x, collapse = "/") := as.numeric(rowSums(df[, x]) == length(x))) 
})

我们按索引创建列的所有组合,并对每个组合应用一个函数,该函数通过检查行和来检查这些列的所有值是否等于 1。如果是这样,我们添加一个名为“x/y/z...”的新列,其中 x、y 和 z 是比较列的索引,等于 1,否则为 0。小心,当列增长。

  A B C D 1/2 1/3 1/4 2/3 2/4 3/4 1/2/3 1/2/4 1/3/4 2/3/4 1/2/3/4
1 0 1 0 0   0   0   0   0   0   0     0     0     0     0       0
2 0 0 1 1   0   0   0   0   0   1     0     0     0     0       0
3 0 0 1 1   0   0   0   0   0   1     0     0     0     0       0
4 0 1 0 1   0   0   0   0   1   0     0     0     0     0       0
于 2020-11-20T11:53:29.240 回答