data-structures - 协调多个数据集

翻译自：https://stackoverflow.com/questions/32143045 2015-08-21T14:34:29.970

128 次

我正在尝试协调多个数据集以识别与共识的差异。可能有 100 组相同的数据，每组可能有 30,000 条记录。每个集合具有相同的列，但可能不具有相同的行，即 Person1 的记录可能只存在于一个集合中，也可能存在于所有集合中。我只想识别不同的记录并报告差异。可能更容易举个例子，例如

设置1：

人性别 DOB 工资等

人 1 M 12/12/2000 100000 等

Person2 F 11/11/1999 200000 等

设置2：

人性别 DOB 工资等

Person2 F 11/11/1999 250000 等

人 3 M 10/10/1998 150000 等

第 3 组：

人性别 DOB 工资等

人 1 M 12/12/2000 100000 等

Person2 F 11/11/1999 250000 等

人 3 M 10/10/1998 150000 等

我想报告 Set1 对 Person2 的薪水与共识不同（Set2 和 Set3 有 250000 但 Set1 有 200000）。不会为 Person1 或 Person 3 报告任何内容，因为所有集合都具有相同的信息。

做到这一点的最佳技术是什么？带有 SQL 语句的关系数据库？某种矢量数据库？Hadoop？统计软件？

提前致谢，

罗宾

0 回答 0