r - 生成新的唯一 ID 号，同时排除 R 中先前生成的 ID 号

Question

我想为我的数据库中的行生成唯一的 ID。我将持续向该数据库添加条目，因此我需要同时生成新的 ID。虽然我的数据库相对较小并且复制随机 ID 的可能性很小，但我仍然想构建一个程序化的故障安全机制，以确保我永远不会生成过去已经使用过的 ID。

对于初学者，这里有一些我可以用来启动示例数据库的示例数据：

library(tidyverse)
library(ids)
library(babynames)
    
database <- data.frame(rid = random_id(5, 5), first_name = sample(babynames$name, 5))

print(database)
          rid first_name
1  07282b1da2      Sarit
2  3c2afbb0c3        Aly
3  f1414cd5bf    Maedean
4  9a311a145e    Teriana
5  688557399a    Dreyton

下面是一些示例数据，我可以使用它们来表示将附加到现有数据库的新数据：

new_data <- sample(babynames$name, 5)

print(new_data)

 first_name
1    Hamzeh
2   Mahmoud
3   Matelyn
4    Camila
5     Renae

现在，我想要的是使用该random_id函数绑定随机生成的 ID 的新列，同时检查以确保新生成的 ID 不匹配database对象中的任何现有 ID。如果生成器创建了一个相同的 ID，那么理想情况下它会生成一个新的替换，直到创建一个真正唯一的 ID。

任何帮助将非常感激！

更新

我想到了一种可能会有所帮助但仍然有限的可能性。我可以生成新的 ID，然后使用for()循环来测试现有数据库中是否存在任何新生成的 ID。如果是这样，那么我会重新生成一个新的 ID。例如...

new_data$rid <- random_id(nrow(new_data), 5)

for(i in 1:nrow(new_data)){
  if(new_data$rid[i] %in% unique(database$rid)){
    new_data$rid[id] = random_id(1, 5)
  }
}

这种方法的问题在于，我需要构建无穷无尽的嵌套if语句流，以再次针对原始数据库持续测试新生成的值。我需要一个过程来继续测试，直到生成在原始数据库中找不到的真正唯一值。

score 4 · Accepted Answer

使用ids::uuid()可能会排除必须检查重复的 id 值。事实上，如果你要生成 10 万亿个 uuid，那么每个UUID 是什么，两个 uuid 相同的可能性大约为 0.00000006。

这是一个基本函数，可以快速检查重复值而无需进行任何迭代：

anyDuplicated(1:4)
[1] 0

anyDuplicated(c(1:4,1))
[1] 5

上面的第一个结果显示没有重复值。第二个显示元素 5 是重复的，因为 1 被使用了两次。下面是如何在不迭代的情况下进行检查，new_data 已database$rid复制，因此所有五个都是重复的。这将重复，直到所有rid都是唯一的，但请注意，它假定所有现有database$rid的都是唯一的。

library(ids)
set.seed(7)
new_data$rid <- database$rid
repeat {
  duplicates <- anyDuplicated(c(database$rid, new_data$rid))
  if (duplicates == 0L) {
    break
  }
  new_data$rid[duplicates - nrow(database)] <- random_id(1, 5)
}

全部new_data$rid都被替换为唯一值。

rbind(database, new_data)

          rid first_name
1  07282b1da2      Sarit
2  3c2afbb0c3        Aly
3  f1414cd5bf    Maedean
4  9a311a145e    Teriana
5  688557399a    Dreyton
6  52f494c714     Hamzeh
7  ac4f522860    Mahmoud
8  ffe74d535b    Matelyn
9  e3dccc4a8e     Camila
10 e0839a0d34      Renae

score 1 · Accepted Answer

这个答案的灵感来自@manotheshark 的答案，有两个主要变化：

这是一个功能。
我更改了替换重复项的机制。而不是像@manotheshark 那样在每次迭代中循环和替换一个重复项，在这里我将它们替换为更大的块。

library(ids)

generate_random_unique_ids <- function(n) {
  vec_ids <- ids::random_id(n = n, bytes = 4, use_openssl = FALSE)
  repeat {
    duplicates <- duplicated(vec_ids)
    if (!any(duplicates)) {
      break
    }
    vec_ids[duplicates] <- ids::random_id(n = sum(duplicates), bytes = 4, use_openssl = FALSE)
  }
  vec_ids
}

例如一些时间

library(tictoc)

tic()
v_1e6 <- generate_random_unique_ids(1e6)
toc()
#> 7.14 sec elapsed

tic()
v_3e7 <- generate_random_unique_ids(3e7)
toc()
#> 296.42 sec elapsed

很想知道是否有办法优化此功能以获得更快的执行时间。

r - 生成新的唯一 ID 号，同时排除 R 中先前生成的 ID 号

2 回答 2

Related

Reference