是否有任何算法或标准来验证不同格式的客户名称。
我是说,
- J·史密斯
- 约翰·史密斯
- 约翰·L·史密斯
- J·路易斯·史密斯
- 约翰·路易斯·S。
可能是同一个人,应该通过验证。
谢谢
确定一个企业名称是否与另一个企业名称非常相似的公认答案- Python肯定会帮助您,因为我自己已经采用了一种非常相似的方法来规范化名称。
请注意,单个独立指标是不够的。集成方法必须考虑字符 N Gram 匹配、编辑距离等,最终返回匹配单词的强度。设计一个计算匹配关键字强度的公式,一旦您的名称列表用尽,只需为强度低于您设置的特定阈值的名称/单词重新运行算法。这使得名称然后与匹配/强度值更强的其他一些名称集群产生共鸣。
此外,您还必须注意精度/召回率的权衡。使用上述方法,我发现精度太好了,但召回率不是很好。