0

我正在使用 Python Dedupe包进行记录链接任务。这意味着将一个数据集中的公司名称与另一个数据集中匹配。

Dedupe 包允许用户标记对以训练逻辑回归模型。但是,这是一个手动过程,需要为屏幕上显示的每一对输入 y/n。

我想加载一个包含 3 列的培训文件,例如 Company 1、Company 2、Match 如果 Company 1 和 Company 2 分别相同或不同,则 Match 可以取值是或否。

我正在关注此源代码,但找不到加载文件进行培训的方法。

此外,文档显示可以更改默认分类器,但不确定如何执行此操作

谁能帮我解决这个问题

4

1 回答 1

0

trainingDataLink在重复数据删除文档中查找该函数。它旨在处理预先标记的数据以进行记录链接。

于 2019-07-23T04:53:41.000 回答