1

我试图在没有通用键的数据集之间链接记录来识别匹配。对于这两个数据集,每条记录我可能没有、一个或多个地址。

如何最好地设置 Python 重复数据删除库来处理列表?我翻遍了谷歌和文档,但没有找到任何具体的东西。

谢谢!

import dedupe

# Not sure what to do here
fields = [
    {
        'field': 'address', 
        'type': 'String'
    },
    {
        'field': 'addresses', 
        'type': 'String'
    },
    {
        'field': 'name', 
        'type': 'String'
    }
]

left_data = {
    'name': 'john doe',
    'addresses': ['11 Washington Ave', '21 Jump St.']
}

right_data = {
    'name': 'jon doee',
    'address': '11 Washington Avneue'
}

linker = dedupe.RecordLink(fields)
linker.prepare_training(left_data, right_data, sample_size=1000)

dedupe.console_label(linker)
linker.train()

linked_records = linker.join(left_data, right_data, 0.0)
4

0 回答 0