r - 近似重复数据删除

Question

假设我有一个这样的数据集：

我需要检查可能的重复项。在这里，第 2 行和第 3 行是可疑的重复项。我知道字符串距离方法以及数字变量的近似匹配。但是这两种方法结合了吗？最终，我正在寻找一种可以在 R 中实现的方法。

score 1 · Accepted Answer

我不认为有一个直接的方法来解决这个问题。您可以分别对待每一列：datetime作为时间戳接近度、string字符串接近度（Levenshtein 距离）和freq数字距离。然后，您可以以递增的方式单独对每一列的每一行进行排名。在所有三个指标中排名靠前的行号（差异最小）是更好的重复候选者。然后，您可以选择考虑重复案例的阈值。

r - 近似重复数据删除

1 回答 1

Related