我有一堆客户数据被规范化为多个表。我想确定最好的标准来做出最好的猜测,即客户可能是相同的。需要在最小化重复数量和最小化误报之间取得平衡,从而打断用户询问潜在的欺骗行为。
我正在查看名字/姓氏+电话号码的某种组合|| 电子邮件地址。
第一个问题是,确定一个客户是否可能与另一个客户相同的一套好的标准是什么。
第二个问题是,对于这个特定的应用程序,我只想检测在过去 2 个月左右注册的客户的重复项。这会改变检测标准吗?
我有一堆客户数据被规范化为多个表。我想确定最好的标准来做出最好的猜测,即客户可能是相同的。需要在最小化重复数量和最小化误报之间取得平衡,从而打断用户询问潜在的欺骗行为。
我正在查看名字/姓氏+电话号码的某种组合|| 电子邮件地址。
第一个问题是,确定一个客户是否可能与另一个客户相同的一套好的标准是什么。
第二个问题是,对于这个特定的应用程序,我只想检测在过去 2 个月左右注册的客户的重复项。这会改变检测标准吗?
您将如何询问客户是否是重复帐户的所有者?
“嘿 Sam Jones,还有一个 Sam Jones 在你当地有一个 ip,他的电子邮件是 sam.jones@abc.com,而你最近注册的电子邮件是 sam.jones@apple.com,你是同一个人吗? /女孩?”
如果上述情况甚至接近您的情况,那么您将泄露私人信息。即另一个 Sam Jone 的电子邮件地址。
通常,您不允许客户使用相同的电子邮件地址进行注册,其次您要验证他们注册时使用的电子邮件地址是否有效。这样,如果他们在电子邮件中输入错误再次注册,他们将无法验证它。
重要的是选择不太可能改变的属性。如果您使用电话号码或电子邮件地址之类的信息,则在任何时候有人更改 ISP 或移动电话提供商时,您都有重复的风险。
如果这些客户是过去购买过的客户,您可以存储他们信用卡号的哈希值和账单地址的哈希值。每当他们再次购买时,散列他们的付款信息并将其与您的数据库进行比较。(注意我说要存储哈希,而不是他们的实际付款信息)
如果您仍然对这个问题感兴趣,请查看此工具https://sourceforge.net/projects/deduper/
我写这个工具主要是为了你在这个问题中提到的目的