我试图在没有通用键的数据集之间链接记录来识别匹配。对于这两个数据集,每条记录我可能没有、一个或多个地址。
如何最好地设置 Python 重复数据删除库来处理列表?我翻遍了谷歌和文档,但没有找到任何具体的东西。
谢谢!
import dedupe
# Not sure what to do here
fields = [
{
'field': 'address',
'type': 'String'
},
{
'field': 'addresses',
'type': 'String'
},
{
'field': 'name',
'type': 'String'
}
]
left_data = {
'name': 'john doe',
'addresses': ['11 Washington Ave', '21 Jump St.']
}
right_data = {
'name': 'jon doee',
'address': '11 Washington Avneue'
}
linker = dedupe.RecordLink(fields)
linker.prepare_training(left_data, right_data, sample_size=1000)
dedupe.console_label(linker)
linker.train()
linked_records = linker.join(left_data, right_data, 0.0)