我正在使用 Python Dedupe包进行记录链接任务。这意味着将一个数据集中的公司名称与另一个数据集中匹配。
Dedupe 包允许用户标记对以训练逻辑回归模型。但是,这是一个手动过程,需要为屏幕上显示的每一对输入 y/n。
我想加载一个包含 3 列的培训文件,例如 Company 1、Company 2、Match 如果 Company 1 和 Company 2 分别相同或不同,则 Match 可以取值是或否。
我正在关注此源代码,但找不到加载文件进行培训的方法。
此外,文档显示可以更改默认分类器,但不确定如何执行此操作
谁能帮我解决这个问题