我一直在尝试使用 dedupe 库来使用 2 个数据集进行记录链接。我现在想用它来链接 10 个(或更多)数据集中的记录。
没有规范的数据集。一条记录可能只出现在其中一个数据集中,最多出现在所有十个数据集中,但只会在单个数据集中出现一次(该数据集独有)。
链接记录的最佳方式是什么?记录链接同时比较两个数据集;要跨多个数据集进行比较,我需要相互比较。例如,如果我有 3 组(A、B、C),我需要比较 A&B、A&C 和 B&C。这是否正确?直觉上,我认为像这样链接数据集彼此独立可能会创建虚假链接,其中记录 A1 链接到 B1,B1 链接到 C1,但 A1 无法链接到 C1;C1 应该被认为是链接的吗?文档指出这是一个挑战。
那么将其视为一个大型数据集并在整个数据中查找重复项会更好吗?这会改善结果吗?会有什么弊端?