我会试一试,因为我参与了一些数据匹配和验证,虽然不是专门在医疗行业。你没有指定一个特定的国家,只是提到了亚洲,所以我将使用我的祖国澳大利亚的一个例子,因为我熟悉规则,我相信这同样适用于许多亚洲国家:
我们有一个用于医疗保健的唯一医疗保险号码,但这不是强制性的,虽然免费/折扣医疗意味着我预计 99% 以上的人会有一个您不能依赖的号码。
还有一个税号,即使你工作也不是强制性的,而且从未工作过的人通常不会有一个。
您可能正在与不是居民的外国人打交道。
驾驶执照当然不是获得医疗保健的强制性要求。
“没有固定地址”是完全合法的。再加上有些人会撒谎来接受治疗和重复用药等。更不用说很多人经常搬家了。
更改姓名在结婚/离婚的情况下很常见,除非出于非法目的,否则有人可以仅仅因为他们不喜欢原来的姓名而更改姓名。更不用说人们使用常见的替代品来代替 Jim 和 James 之类的东西。
输入错误在大型数据集上非常常见。
简而言之,我认为您要求的“完美”方案是不可能的。您可以做的最好的事情是应用加权规则来查找可能的重复项。例如,相同的姓名/出生日期/出生地点是不太可能但可能发生的事件,因此向数据输入操作员显示可能重复的警告,并让他们查看可能重复的详细信息。即使像驾驶执照号码这样应该唯一的东西也可能表明原始条目只是有数据输入错误,而不是新的副本。
根据我的经验,最好的事情是一份报告,其中列出了可能的重复项,这些重复项必须由链上更高的人进行审查,并为他们提供一个简单的选项来合并重复项。然后,您可以开始使用更模糊的正则表达式,这些表达式会抛出一些误报,当人们审查它们时可以忽略这些误报。您还可以随着时间的推移优化模型以获得最佳匹配结果。