mysql - 使用 LOAD DATA INFILE 或其他解决方案对数百万行进行 DeDuping

Question

祝大家有美好的一天。我知道这个话题经常出现，并为任何冗余道歉，但我需要你的 MYSQL 专家。

我尝试了几种已在此处发布的解决方案，但均无济于事。解决方案要么花费太长时间和/或更有可能我只是没有知识库来在截止日期前完成这项任务并且需要指导。似乎有意义的最常见答案是使用临时表中的 LOAD DATA INFILE 但我应该将文件分解成块，使用循环脚本吗？我知道这将帮助这里的很多新手获得完整的示例和解释，也许可以一劳永逸地为你们提供帮助。我的树桩可能来自使用带有 IGNORE 或 REPLACE 的参数。下面是两张表：

表 1 有 2700 万行和基于具有多种疾病的个人的重复项，如下所示：

first|last|zip|gender|address|city|state|zip|zip4|birthdate|ailment
-------------------------------------------------------------------
Jay   R    123  M     2 Help  LA   CA    123 123  8/23/86   21
Tom   L    123  M     2 Help  LA   CA    123 123  8/23/86   1

Table2 有 300 万行和两个空列，但没有内部重复的疾病。

first|last|zip|gender|address|city|state|zip|zip4|ailment|birthdate
-------------------------------------------------------------------
Jay   R    123  M     2 Help  LA   CA   123 NULL  NULL     8/23/86

我希望根据第一个，最后一个和邮政编码来欺骗。如果有帮助，我会丢失一些数据以更快地处理此问题。我非常感谢这种帮助。

mysql - 使用 LOAD DATA INFILE 或其他解决方案对数百万行进行 DeDuping

0 回答 0

Related

Reference