0

我正在尝试协调多个数据集以识别与共识的差异。可能有 100 组相同的数据,每组可能有 30,000 条记录。每个集合具有相同的列,但可能不具有相同的行,即 Person1 的记录可能只存在于一个集合中,也可能存在于所有集合中。我只想识别不同的记录并报告差异。可能更容易举个例子,例如

设置1:

  • 人 性别 DOB 工资等
  • 人 1 M 12/12/2000 100000 等
  • Person2 F 11/11/1999 200000 等

    设置2:

  • 人 性别 DOB 工资等
  • Person2 F 11/11/1999 250000 等
  • 人 3 M 10/10/1998 150000 等

    第 3 组:

  • 人 性别 DOB 工资等
  • 人 1 M 12/12/2000 100000 等
  • Person2 F 11/11/1999 250000 等
  • 人 3 M 10/10/1998 150000 等

    我想报告 Set1 对 Person2 的薪水与共识不同(Set2 和 Set3 有 250000 但 Set1 有 200000)。不会为 Person1 或 Person 3 报告任何内容,因为所有集合都具有相同的信息。

    做到这一点的最佳技术是什么?带有 SQL 语句的关系数据库?某种矢量数据库?Hadoop?统计软件?

    提前致谢,

    罗宾

  • 4

    0 回答 0