r - 基于多列的具有独特案例的子集

Question

我想对数据框进行子集化，以仅包含具有三列唯一组合的行。我的情况与此问题中提出的情况相似，但我也想保留数据中的其他列。这是我的例子：

> df
  v1  v2  v3   v4  v5
1  7   1   A  100  98 
2  7   2   A   98  97
3  8   1   C   NA  80
4  8   1   C   78  75
5  8   1   C   50  62
6  9   3   C   75  75

请求的输出将是这样的，我正在寻找仅基于 v1、v2 和 v3 的独特案例：

> df.new
  v1  v2  v3   v4  v5
1  7   1   A  100  98 
2  7   2   A   98  97
3  8   1   C   NA  80
6  9   3   C   75  75

如果我能恢复非唯一的行，那也很棒：

> df.dupes
  v1  v2  v3   v4  v5
3  8   1   C   NA  80
4  8   1   C   78  75
5  8   1   C   50  62

我在 sql (这里)中看到了一个有关如何执行此操作的相关问题，但我无法在 R 中得到它。我确信这很简单，但搞乱 unique() 和 subset() 并没有取得成果。提前致谢。

score 65 · Accepted Answer

您可以使用该duplicated()函数查找唯一组合：

> df[!duplicated(df[1:3]),]
  v1 v2 v3  v4 v5
1  7  1  A 100 98
2  7  2  A  98 97
3  8  1  C  NA 80
6  9  3  C  75 75

要仅获取重复项，您可以双向检查：

> df[duplicated(df[1:3]) | duplicated(df[1:3], fromLast=TRUE),]
  v1 v2 v3 v4 v5
3  8  1  C NA 80
4  8  1  C 78 75
5  8  1  C 50 62

score 20 · Accepted Answer

使用dplyr你可以做：

library(dplyr)

# distinct
df %>% 
  distinct(v1, v2, v3, .keep_all = T)

# non-distinct only
df %>% 
  group_by(v1, v2, v3) %>% 
  filter(n() > 1)

# exclude any non-distinct
df %>% 
  group_by(v1, v2, v3) %>% 
  filter(n() == 1)

score 5 · Accepted Answer

您可以使用该plyr软件包：

library(plyr)

ddply(df, c("v1","v2","v3"), head, 1)
#   v1 v2 v3  v4 v5
# 1  7  1  A 100 98
# 2  7  2  A  98 97
# 3  8  1  C  NA 80
# 4  9  3  C  75 75

ddply(df, c("v1","v2","v3"), function(x) if(nrow(x)>1) x else NULL)
#   v1 v2 v3 v4 v5
# 1  8  1  C NA 80
# 2  8  1  C 78 75
# 3  8  1  C 50 62

score 2 · Accepted Answer

是的，但是如果数据太多，使用 plyr 和 ddply 会非常慢。

你 shd 尝试这样的事情：

df[ cbind( which(duplicated(df[1:3])), which(duplicated(df[1:3], fromLast=TRUE))),]

或者：：

from = which(duplicated(df[1:3])
to = which(duplicated(df[1:3], fromLast=TRUE))
df[cbind(from,to),]

在大多数情况下会更快。

测试一下，让我们知道

有一些错误，但我猜只要你明白了，你就可以解决这些错误。

也尝试独特的一切

score 2 · Accepted Answer

如果您正在使用data.table，就很容易获得关于一个或多个变量的独特案例。语法如下

unique(DT, by = c("var1", "var2"))

score 1 · Accepted Answer

一种不优雅但实用的方法是将给定行的条目粘贴在一起并查找哪些是唯一（或非唯一）行，例如：

df.vector=apply(df,1,FUN=function(x) {paste(x,collapse="")})
df.table=table(df.vector)

然后使用以下内容获取重复项的索引：

which(df.vector%in%names(which(df.table>1)))

score 1 · Accepted Answer

我知道这是一个非常古老的问题，但无论如何我认为使用 unique() 函数的明显解决方案也应该在这里提出：

unique(df[1:3])

或按名称指定列：

unique(df[c("v1","v2","v3)]

...并指定行：

unique(df[,c("v1","v2","v3)]

r - 基于多列的具有独特案例的子集

7 回答 7

Related

Reference