0

感觉它应该比我发现的更简单。

我有三个数据集/客户列表,其中包含一些重叠数据,但有些客户只存在于每个列表中。

列表 A:50 万条记录 列表 B:8 万条记录 列表 C:7 万条记录

每个的唯一标识符/密钥是电子邮件地址。

我尝试了各种加入这些的方法 - 左外,右外,外...

我最近尝试生成最大列表的方法是从列表 A 开始,然后使用电子邮件地址作为键加入其他两个列表。

但这样一来,我似乎只完成了一个包含 500k 常见记录的连接列表......

我觉得如果列表 A 中尚不存在任何新的、唯一的用户,则它们似乎正在从列表 B 和列表 C 中删除。

如何加入所有三个,实现重复数据删除,同时为 B 和 C 的不常见用户添加新行?

谢谢,

4

1 回答 1

0

您可以使用以下配方解决此问题:

1)由于您在三个数据集中有重叠的数据,因此请合并列表中常见的列。

2)由于联合应该产生一些重复的行,然后您可以删除重复的行,这将导致每封电子邮件出现一次。

3)最后,您可以对每个列表进行左连接以添加每个列表唯一的列。

于 2019-12-26T15:04:11.550 回答