0

我有大量的公司名称以及与这些名称相关的大量邮政编码列表。(> 100,000)。

我必须输出相似的名称(例如,AJAX INC 和 AJAX 是同一家公司,我为编辑距离选择了 4 个字符的阈值),但前提是它们对应的邮政编码也匹配。

问题是我可以将所有这些公司名称放入字典中,并将邮政编码列表和其他特征与该字典键相关联。但是,然后我必须匹配每一对,并且使用 O(n^2),它需要永远。有更快的方法吗?

4

1 回答 1

1

创建一个以邮政编码为键的字典,将公司名称列表作为值。现在您只需要匹配每个邮政编码的公司名称,搜索空间要小得多。

于 2013-08-02T18:04:36.407 回答