我有一个包含个人姓名、地址、电话号码等的数据集。有些人出现多次,姓名/和/或收件人和/或电话号码略有不同。假数据的片段如下所示:
first last address phone
Jimmy Bamboo P.O. Box 1190 xxx-xx-xx00
Jimmy W. Bamboo P.O. Box 1190 xxx-xx-xx22
James West Bamboo P.O. Box 219 xxx-66-xxxx
... 等等。有时 E. 拼写为east,St. 拼写为 Street,有时则不是。
我需要做的是遍历近 120,000 行数据,以根据他们的姓名、地址和电话号码识别每个唯一的个体。任何人都知道如何在不手动运行每条记录的情况下完成此操作,一次一个?我盯着它看的越多,我就越认为如果不做出一些判断并说如果至少有两个或三个字段相同,则将其视为一个人是不可能的。
谢谢!!
阿尼