我们在 R 中使用 RLBiggDataLinkage 来链接两条记录 1. 主数据(约 160 万条记录) 2. 目标(约 10 万条记录)
列是名字、姓氏、地址、邮编、唯一 ID1、唯一 ID 2
两个数据集中的所有记录都没有唯一 ID。尽管在可用的情况下,它们应该被给予最高的重视。
我们使用 fsWeights 来提供 m 和 u 概率和截止值,以便为匹配模式提供固定权重
compare_fs <- fsWeights(compare_lm, m = c(0.99,0.99,0.8,0.6,0.9,0.6,0.99,0.99,0.85), u = c(0.000001,0.000008,0.00003,0.00003,0.8,0.009,0.010001,0.0000 0.000003), 截止 = c(1,0.95,0.95,0.9,1,0.98,0.99,0.99,1) )
我们在所有列上使用字符串比较并阻止名字的前 3 个字符(这样做是为了避免错过名字中有拼写错误的对)
compare_lm <- RLBigDataLinkage(master_lm, target_lm, blockfld = c("FIRST_NAME_3"),strcmp = c("FIRST_NAME", "LAST_NAME", "ADDRESS1","ZIP_OR_POSTAL_CODE", "UNIQUEID_1","UNIQUEID_2"), strcmpfun = " jarowinkler", exclude=c("ID") )
我们的匹配条件是,当两个记录对中都有 id 时,那么至少 1 个 id 应该匹配,否则
名字,姓氏,地址应该匹配。
使用 fsweights,我们得到相似对的不同权重,例如 pair 1 : weight 27.33 。名字、姓氏、地址匹配。主数据中的标识符为空。正确匹配
AMMANARIA ASSEVERO 71RATHERAVESTE130STE130 12534 NA
AMMANARIA ASSEVERO 71RATHERAVE 12534 AASSEVERO@CMH-NET.ORG 761669 523783006
第 2 对:重量 27.33。只有名字,姓氏匹配。地址和标识符不匹配错误匹配
约翰苏克 1532SULTANAVE 70112 护士jd@cox.net 67541 740753012 约翰苏克 201LYONSAVE 7112 SRSOOKE314@GMAIL.COM 9110520 350169181
第 3 对:重量 42 。名字、姓氏、地址匹配。主数据中的标识符为空。
博尔赫斯TENCIA 2608ERESIDENTIALBLVD 33344 NA
博尔赫斯TENCIA 2608ERESIDENTIALBLVD 33344 BORGES.TENCIA@HOLY-CROSS.COM 1519647 3008480850
第 1 对和第 3 对应获得与给定 m、u 和切断相同的重量
我们如何增加第 1 对的权重或减少第 2 对的权重以确保我们有所有正确的匹配。