我有 1 个名为 A 的 data.frame,其中有 5000 列。如何在此 data.frame 中找到彼此相等的列。
问问题
2315 次
3 回答
6
正如@John 提到的,使用duplicated
. 我要补充一点,转置 data.frame 会强制将所有数据转换为相同的数据类型,然后再与duplicated
. 举个例子,这里是一个data.frame:
df <- data.frame( a = LETTERS[1:3],
b = 1:3,
c = as.character(1:3),
d = LETTERS[1:3],
e = 1:3,
f = 1:3)
df
# a b c d e f
# 1 A 1 1 A 1 1
# 2 B 2 2 B 2 2
# 3 C 3 3 C 3 3
请注意, column与 columns 、和c
非常相似,但由于类型不同(字符与数字)而不相同。@Jubbles 建议的解决方案将忽略这些差异。 b
e
f
identical
相反,在 data.frame 的列上使用该函数似乎更合适。您可以使用以下方法两两比较列outer
:
are.cols.identical <- function(col1, col2) identical(df[,col1], df[,col2])
identical.mat <- outer(colnames(df), colnames(df),
FUN = Vectorize(are.cols.identical))
identical.mat
# [,1] [,2] [,3] [,4] [,5] [,6]
# [1,] TRUE FALSE FALSE TRUE FALSE FALSE
# [2,] FALSE TRUE FALSE FALSE TRUE TRUE
# [3,] FALSE FALSE TRUE FALSE FALSE FALSE
# [4,] TRUE FALSE FALSE TRUE FALSE FALSE
# [5,] FALSE TRUE FALSE FALSE TRUE TRUE
# [6,] FALSE TRUE FALSE FALSE TRUE TRUE
从这里,您可以使用聚类来识别相同列的组(可能有更好的方法,所以如果您知道,请随时评论甚至编辑我的答案。)
library(cluster)
distances <- as.dist(!identical.mat)
tree <- hclust(distances)
cut <- cutree(tree, h = 0.5)
cut
# [1] 1 2 3 1 2 2
split(colnames(df), cut)
# $`1`
# [1] "a" "d"
#
# $`2`
# [1] "b" "e" "f"
#
# $`3`
# [1] "c"
编辑1:忽略浮点值的差异,可以使用
are.cols.identical <- function(col1,col2) isTRUE(all.equal((df[,col1],df[,col2]))
编辑2:比聚类相同列的名称分组更有效的方法是
cut <- apply(identical.mat, 1, function(x)match(TRUE, x))
split(colnames(df), cut)
于 2012-04-21T15:45:38.800 回答
6
这个问题与这里的问题非常相似,有细微的差别,但有相同的警告。
我会再次建议使用digest()
,如下所示(感谢@flodel 提供的 data.frame 和上面的一个非常好的建议)
df <- data.frame( a = LETTERS[1:3],
b = 1:3,
c = as.character(1:3),
d = LETTERS[1:3],
e = 1:3,
f = 1:3)
dfDig <- sapply(df, digest)
ansL <- lapply(seq_along(dfDig), function(x) names(which(dfDig == dfDig[x])))
unique(ansL)
# [[1]]
# [1] "a" "d"
# [[2]]
# [1] "b" "e" "f"
# [[3]]
# [1] "c"
不过,这仍然无法区分1.0
and 1
。
编辑
正如@flodel 的评论中所建议的那样,在创建之后可以选择使用以下内容dfDig
split(colnames(df), vapply(dfDig, match, 1L, dfDig))
于 2012-04-22T09:18:14.800 回答
2
如何转置数据帧并使用duplicated()
?
B <- as.data.frame(t(A))
dup1 <- duplicated(B)
# if you want to identify all duplicated rows
dup2 <- duplicated(B, fromLast = TRUE)
dup_final <- dup1 * dup2
saved_colnames <- colnames(A)[dup_final]
于 2012-04-21T13:04:14.940 回答