0

请向我推荐 Java 产品(我更喜欢开源),它确实可以:

  1. 重复数据删除
  2. 重复数据删除评分
  3. 允许自定义重复数据删除规则和评分规则。

请看示例:

  1. 我有一个名为“INPUT_DB”的输入暂存数据库
  2. 我有一个名为“INPUT_PERSONS”的表
  3. 此表中有几个字段:

    ID(一些无意义的代理主键)
    FIRST_NAME
    LAST_NAME
    SECOND_NAME
    BIRTH_DATE
    PASSPORT_SERIES(PASSPORT_SERIES + PASSPORT_NUM 是公民的唯一标识符)
    PASSPORT_NUM

我必须查看 INPUT_PERSONS 中的所有记录并找到重复项和匹配项。应该创建几个规则:

  1. 如果 PASSPORT_SERIES+PASSPORT_NUM 等于某个记录,则意味着这两个记录是重复的。这种情况的得分是 100 分(满分 100 分)
  2. 如果 FIRST_NAME、LAST_NAME 相等,但 PASSPORT_SERIES+PASSPORT_NUM 有一个不同的字符(例如打印错误),则这些记录可能重复,其得分为 90 分(满分 100)。
  3. 等等....

是否有可能找到一些现成的解决方案并将其用作基础?

4

2 回答 2

1

我过去曾这样做过,并基于fallEgi-sunter 算法。看到这个问题:Fellegi-Sunter 有开源实现吗?

于 2012-02-26T09:56:04.370 回答
0

DUKE 项目可以满足您的要求:https ://github.com/larsga/Duke

于 2017-04-20T02:40:41.820 回答