我正在编写一些代码来在数据库中查找重复的客户详细信息。我将使用 Levenshtein 距离。
但是,我不确定如何存储关系。我一直在使用数据库,但从未遇到过这种情况,我想知道是否有人可以为我指明正确的方向。
令我困惑的是如何存储关系的双向性质。
我已经开始在下面放置一些示例,但想知道是否有存储此类数据的最佳实践,
示例数据
身份证、地址
001, 5 Main Street
002, 5 Main St.
003, 5 Main Str
004, 6 High Street
005, 7 Low Street
006, 7 Low St
建议一
customer_id1、customer_id2、relationship_strength
001、002、0.74
001、003、0.77
002、003、0.76
005、006、0.77
对这种方法不满意,因为它有点推断 customer_id1 和 customer_id2 之间的单向关系。当然,除非我以两种方式都包含所有关系,但这会使处理时间和表格大小加倍。
例如需要包括:002、001、0.74
建议二
客户 ID、分组
ID
001、1
002、1
003、1
005、2 006、2