我正在使用 Python Dedupe 对我们的 MDM 数据库进行重复数据删除,到目前为止,经过充分的训练后它工作正常,并且形成了一个实体映射表,其中显示了 Cluster_id、规范名称和分数。
我被卡住了,不确定数据库中插入的新记录,如何将这条新记录与 entity_map 表中的现有集群合并。我在重复数据删除文档中也找不到函数。
为新记录再次运行整个过程(创建阻塞映射、复数键和集群重复)将是昂贵的,因此只需寻找一种成本较低的解决方案来将新记录与实体映射表中的现有集群进行集群
我正在使用 Python Dedupe 对我们的 MDM 数据库进行重复数据删除,到目前为止,经过充分的训练后它工作正常,并且形成了一个实体映射表,其中显示了 Cluster_id、规范名称和分数。
我被卡住了,不确定数据库中插入的新记录,如何将这条新记录与 entity_map 表中的现有集群合并。我在重复数据删除文档中也找不到函数。
为新记录再次运行整个过程(创建阻塞映射、复数键和集群重复)将是昂贵的,因此只需寻找一种成本较低的解决方案来将新记录与实体映射表中的现有集群进行集群