我正在研究记录链接问题并应用无监督算法,因为我没有外部标签。
我已经应用了 ECM 算法。使用的代码是:
import recordlinkage
indexer = recordlinkage.BlockIndex(on=['FirstName_CD','LastName_CD'])
pairs = indexer.index(data1, data2)
compare_cl = recordlinkage.Compare()
compare_cl.string('FirstName_CD', 'FirstName_CD', method='jarowinkler', threshold=0.50,label='given_name')
compare_cl.string('LastName_CD', 'LastName_CD', method='jarowinkler', threshold=0.50, label='surname')
compare_cl.exact('Date.Of.Birth_CD', 'Date.Of.Birth_CD', label='date_of_birth')
compare_cl.exact('Gender_CD', 'Gender_CD', label='gender')
compare_cl.exact('Profession_CD', 'Profession_CD', label='profession')
compare_cl.string('Address_CD', 'Address_CD', threshold=0.85, label='address_1')
features = compare_cl.compute(pairs,data1)
ecm = recordlinkage.ECMClassifier()
result_ecm=ecm.learn(features)
现在它返回一个多索引。我的问题是我可以从中得出什么推论?如何获取匹配/不匹配信息?