请向我推荐 Java 产品(我更喜欢开源),它确实可以:
- 重复数据删除
- 重复数据删除评分
- 允许自定义重复数据删除规则和评分规则。
请看示例:
- 我有一个名为“INPUT_DB”的输入暂存数据库
- 我有一个名为“INPUT_PERSONS”的表
此表中有几个字段:
ID(一些无意义的代理主键)
FIRST_NAME
LAST_NAME
SECOND_NAME
BIRTH_DATE
PASSPORT_SERIES(PASSPORT_SERIES + PASSPORT_NUM 是公民的唯一标识符)
PASSPORT_NUM
我必须查看 INPUT_PERSONS 中的所有记录并找到重复项和匹配项。应该创建几个规则:
- 如果 PASSPORT_SERIES+PASSPORT_NUM 等于某个记录,则意味着这两个记录是重复的。这种情况的得分是 100 分(满分 100 分)
- 如果 FIRST_NAME、LAST_NAME 相等,但 PASSPORT_SERIES+PASSPORT_NUM 有一个不同的字符(例如打印错误),则这些记录可能重复,其得分为 90 分(满分 100)。
- 等等....
是否有可能找到一些现成的解决方案并将其用作基础?