2

我知道Dedupe使用主动学习来删除重复项并执行记录链接。

但是,我想知道我们是否可以将带有已匹配对(标签数据)的 excel 表作为主动学习的输入传递?

4

1 回答 1

2

不是直接的。

您需要将数据转换为markPairs可以使用的格式。

就像是:

labeled_examples = {'match'    : [],
                    'distinct' : [({'name' : 'Georgie Porgie'},
                                   {'name' : 'Georgette Porgette'})]
                    }
deduper.markPairs(labeled_examples)

我们确实提供了将电子表格数据转换为这种格式的便利功能trainingDataDedupe

(我是 dedupe 的作者)

于 2017-12-06T15:39:14.037 回答