java - 如何计算商会号码之间的相似度？

Question

我正在开发一个进行 OCR 后处理的引擎，目前我在数据库中有一组组织，包括商会编号。

同样从 OCR 输出中，我有一个可能的商会 (COC) 号码列表。

搜索最相似的最佳方法是什么？目前我正在使用 Levenshtein Distance，但结果范围太大了，在大型数据库上我真的怀疑它的可行性。目前它是用Java实现的，数据库是MySQL数据库。

旁注：荷兰的商会编号被定义为每个公司的 8 位数字，该系统的早期版本使用另外 4 位数字（0000、0001 等）表示组织的成立，如今，正在为这些人提供全新的 COC 编号。

COCNumber 示例：

通过后处理确定的可能的 COCNumber 列表：

一些额外的注意事项：

一般来说，我将如何继续找到最佳匹配？（在这种情况下 (13041611, KvK13041611) 是最好的（而且是正确的）匹配）

score 0 · Accepted Answer

仅在 MySQL 中进行这种匹配可能是一个坏主意，原因很简单：无法使用正则表达式来本地修改字符串。

根据我的经验（来自 ISBN 和其他书籍识别数据），您将需要使用某种评分算法才能做到这一点。

这是程序性的——您可能需要用 Java（或其他一些程序性编程语言）来完成。

如果您匹配相同长度的子字符串，您可以尝试使用 Levenshtein 的距离来处理这些剩余的项目。它们的数量也可能足够少，您可以手动更正数据并继续。

另一种可能性：您也许可以使用 Amazon Mechanical Turk 购买众包劳动力来解决一些疑难问题。

1 回答 1