r - 在 R 中查找重复值

Question

我有一个包含 21638 个唯一 * 行的表：

vocabulary <- read.table("http://socserv.socsci.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/Vocabulary.txt", header=T)

该表有五列，第一列包含受访者的 ID 号。我想检查是否有任何受访者出现两次，或者所有受访者是否都是唯一的。

要计算我可以使用的唯一 ID

length(unique(vocabulary$id))

并检查是否有任何重复我可能会做

length(unique(vocabulary$id)) == nrow(vocabulary)

TRUE如果没有重复项（没有重复项），则返回。

我的问题：

有没有直接的方法来返回重复值或行号？

一些进一步的解释：

使用函数存在解释问题duplicated()，因为它只返回严格意义上的重复项，不包括“原件”。例如，sum(duplicated(vocabulary$id))或者dim(vocabulary[duplicated(vocabulary$id),])[1]可能返回“5”作为重复行数。问题是，如果您只知道重复的数量，您将不知道它们重复了多少行。“5”是指有五行，每行一个重复，还是一行有五个重复？而且由于您没有重复项的 ID 或行号，因此您将无法找到“原件”。

*我知道此调查中没有重复的 ID，但这是一个很好的例子，因为使用此问题其他地方给出的任何答案，例如duplicated(vocabulary$id)或table(vocabulary$id)将在屏幕上输出一个干草堆，您将无法在其中找到任何可能的稀有重复针。

score 153 · Accepted Answer

你可以使用table，即

n_occur <- data.frame(table(vocabulary$id))

为您提供一个数据框，其中包含ids 列表和它们发生的次数。

n_occur[n_occur$Freq > 1,]

告诉你哪个ids 发生了不止一次。

vocabulary[vocabulary$id %in% n_occur$Var1[n_occur$Freq > 1],]

返回出现多次的记录。

score 60 · Accepted Answer

这会给你重复的行：

vocabulary[duplicated(vocabulary$id),]

这将为您提供重复的数量：

dim(vocabulary[duplicated(vocabulary$id),])[1]

例子：

vocabulary2 <-rbind(vocabulary,vocabulary[1,]) #creates a duplicate at the end
vocabulary2[duplicated(vocabulary2$id),]
#            id year    sex education vocabulary
#21639 20040001 2004 Female         9          3
dim(vocabulary2[duplicated(vocabulary2$id),])[1]
#[1] 1 #=1 duplicate

编辑

好的，有了附加信息，您应该这样做：duplicated有一个fromLast选项允许您从最后获取重复项。如果将其与 normal 结合使用duplicated，则会得到所有重复项。以下示例将重复项添加到原始词汇对象（第 1 行重复两次，第 5 行重复一次）。然后我table用来获取每个 ID 的重复总数。

#Create vocabulary object with duplicates
voc.dups <-rbind(vocabulary,vocabulary[1,],vocabulary[1,],vocabulary[5,])

#List duplicates
dups <-voc.dups[duplicated(voc.dups$id)|duplicated(voc.dups$id, fromLast=TRUE),]
dups
#            id year    sex education vocabulary
#1     20040001 2004 Female         9          3
#5     20040008 2004   Male        14          1
#21639 20040001 2004 Female         9          3
#21640 20040001 2004 Female         9          3
#51000 20040008 2004   Male        14          1

#Count duplicates by id
table(dups$id)
#20040001 20040008 
#       3        2

score 19 · Accepted Answer

在这里，我总结了几种可能会给你的问题带来不同结果的方法，所以要小心：

# First assign your "id"s to an R object.
# Here's a hypothetical example:
id <- c("a","b","b","c","c","c","d","d","d","d")

#To return ALL MINUS ONE duplicated values:
id[duplicated(id)]
## [1] "b" "c" "c" "d" "d" "d"

#To return ALL duplicated values by specifying fromLast argument:
id[duplicated(id) | duplicated(id, fromLast=TRUE)]
## [1] "b" "b" "c" "c" "c" "d" "d" "d" "d"

#Yet another way to return ALL duplicated values, using %in% operator:
id[ id %in% id[duplicated(id)] ]
## [1] "b" "b" "c" "c" "c" "d" "d" "d" "d"

希望这些帮助。祝你好运。

score 10 · Accepted Answer

这是一个data.table解决方案，它将列出重复项以及重复项的数量（如果有 2 个副本，则为 1，依此类推 - 您可以根据需要进行调整）：

library(data.table)
dt = data.table(vocabulary)

dt[duplicated(id), cbind(.SD[1], number = .N), by = id]

score 5 · Accepted Answer

一种更简洁的方式，或者使用rev：

x[!(!duplicated(x) & rev(!duplicated(rev(x))))]

...而不是fromLast：

x[!(!duplicated(x) & !duplicated(x, fromLast = TRUE))]

...并作为辅助函数提供逻辑向量或原始向量中的元素：

duplicates <- function(x, as.bool = FALSE) {
    is.dup <- !(!duplicated(x) & rev(!duplicated(rev(x))))
    if (as.bool) { is.dup } else { x[is.dup] }
}

将向量视为要传递的数据帧table很方便，但可能难以阅读，而且data.table解决方案很好，但我更喜欢使用基本 R 解决方案来处理像 ID 这样的简单向量。

r - 在 R 中查找重复值

5 回答 5

编辑

Related

Reference