感觉它应该比我发现的更简单。
我有三个数据集/客户列表,其中包含一些重叠数据,但有些客户只存在于每个列表中。
列表 A:50 万条记录 列表 B:8 万条记录 列表 C:7 万条记录
每个的唯一标识符/密钥是电子邮件地址。
我尝试了各种加入这些的方法 - 左外,右外,外...
我最近尝试生成最大列表的方法是从列表 A 开始,然后使用电子邮件地址作为键加入其他两个列表。
但这样一来,我似乎只完成了一个包含 500k 常见记录的连接列表......
我觉得如果列表 A 中尚不存在任何新的、唯一的用户,则它们似乎正在从列表 B 和列表 C 中删除。
如何加入所有三个,实现重复数据删除,同时为 B 和 C 的不常见用户添加新行?
谢谢,
磷