algorithm - OCR 的字距算法

Question

我正在使用 OCR 输出，并且正在其中搜索特殊单词。

由于输出不干净，我根据低于特定阈值的字距查找与我的输入匹配的元素。

但是，我觉得 Levenshtein 距离或 Hamming 距离并不是最好的方法，因为 OCR 似乎总是犯同样的错误：I 代表 1，0 代表 O，Q 代表 O……而这些“经典”错误似乎例如，不如“A for K”重要。结果，这些距离不关心角色外观的差异量（低/高）。

是否有任何专门为 OCR 制作的字距算法，我可以使用它更适合我的情况？或者我应该根据字符的视觉差异经验性地实现我的自定义字距？

score 2 · Accepted Answer

Levenshtein 距离允许您为每个替换对指定不同的成本（http://en.wikipedia.org/wiki/Levenshtein_distance#Possible_modifications，第五项）。因此，您可以通过或多或少地强调常见错误来调整它以适应您的需求。

score 1 · Accepted Answer

我你想要一个字母不匹配的自定义成本函数，你可以看看 Needleman-Wunsch 算法（NW）

2 回答 2