我知道Dedupe使用主动学习来删除重复项并执行记录链接。
但是,我想知道我们是否可以将带有已匹配对(标签数据)的 excel 表作为主动学习的输入传递?
我知道Dedupe使用主动学习来删除重复项并执行记录链接。
但是,我想知道我们是否可以将带有已匹配对(标签数据)的 excel 表作为主动学习的输入传递?
不是直接的。
您需要将数据转换为markPairs
可以使用的格式。
就像是:
labeled_examples = {'match' : [],
'distinct' : [({'name' : 'Georgie Porgie'},
{'name' : 'Georgette Porgette'})]
}
deduper.markPairs(labeled_examples)
我们确实提供了将电子表格数据转换为这种格式的便利功能trainingDataDedupe
。
(我是 dedupe 的作者)