0

假设我有一个这样的数据集:

示例数据

我需要检查可能的重复项。在这里,第 2 行和第 3 行是可疑的重复项。我知道字符串距离方法以及数字变量的近似匹配。但是这两种方法结合了吗?最终,我正在寻找一种可以在 R 中实现的方法。

4

1 回答 1

1

我不认为有一个直接的方法来解决这个问题。您可以分别对待每一列:datetime作为时间戳接近度、string字符串接近度(Levenshtein 距离)和freq数字距离。然后,您可以以递增的方式单独对每一列的每一行进行排名。在所有三个指标中排名靠前的行号(差异最小)是更好的重复候选者。然后,您可以选择考虑重复案例的阈值。

于 2019-07-15T14:00:41.437 回答