我正在尝试协调多个数据集以识别与共识的差异。可能有 100 组相同的数据,每组可能有 30,000 条记录。每个集合具有相同的列,但可能不具有相同的行,即 Person1 的记录可能只存在于一个集合中,也可能存在于所有集合中。我只想识别不同的记录并报告差异。可能更容易举个例子,例如
设置1:
设置2:
第 3 组:
我想报告 Set1 对 Person2 的薪水与共识不同(Set2 和 Set3 有 250000 但 Set1 有 200000)。不会为 Person1 或 Person 3 报告任何内容,因为所有集合都具有相同的信息。
做到这一点的最佳技术是什么?带有 SQL 语句的关系数据库?某种矢量数据库?Hadoop?统计软件?
提前致谢,
罗宾