1

是否有任何算法或标准来验证不同格式的客户名称。

我是说,

  • J·史密斯
  • 约翰·史密斯
  • 约翰·L·史密斯
  • J·路易斯·史密斯
  • 约翰·路易斯·S。

可能是同一个人,应该通过验证。

谢谢

4

1 回答 1

2

确定一个企业名称是否与另一个企业名称非常相似的公认答案- Python肯定会帮助您,因为我自己已经采用了一种非常相似的方法来规范化名称。

请注意,单个独立指标是不够的。集成方法必须考虑字符 N Gram 匹配、编辑距离等,最终返回匹配单词的强度。设计一个计算匹配关键字强度的公式,一旦您的名称列表用尽,只需为强度低于您设置的特定阈值的名称/单词重新运行算法。这使得名称然后与匹配/强度值更强的其他一些名称集群产生共鸣。

此外,您还必须注意精度/召回率的权衡。使用上述方法,我发现精度太好了,但召回率不是很好。

于 2013-11-14T19:02:47.500 回答