我有大量的公司名称以及与这些名称相关的大量邮政编码列表。(> 100,000)。
我必须输出相似的名称(例如,AJAX INC 和 AJAX 是同一家公司,我为编辑距离选择了 4 个字符的阈值),但前提是它们对应的邮政编码也匹配。
问题是我可以将所有这些公司名称放入字典中,并将邮政编码列表和其他特征与该字典键相关联。但是,然后我必须匹配每一对,并且使用 O(n^2),它需要永远。有更快的方法吗?
我有大量的公司名称以及与这些名称相关的大量邮政编码列表。(> 100,000)。
我必须输出相似的名称(例如,AJAX INC 和 AJAX 是同一家公司,我为编辑距离选择了 4 个字符的阈值),但前提是它们对应的邮政编码也匹配。
问题是我可以将所有这些公司名称放入字典中,并将邮政编码列表和其他特征与该字典键相关联。但是,然后我必须匹配每一对,并且使用 O(n^2),它需要永远。有更快的方法吗?