3

我正在使用 OCR 输出,并且正在其中搜索特殊单词。

由于输出不干净,我根据低于特定阈值的字距查找与我的输入匹配的元素。

但是,我觉得 Levenshtein 距离或 Hamming 距离并不是最好的方法,因为 OCR 似乎总是犯同样的错误:I 代表 1,0 代表 O,Q 代表 O……而这些“经典”错误似乎例如,不如“A for K”重要。结果,这些距离不关心角色外观的差异量(低/高)。

是否有任何专门为 OCR 制作的字距算法,我可以使用它更适合我的情况?或者我应该根据字符的视觉差异经验性地实现我的自定义字距?

4

2 回答 2

2

Levenshtein 距离允许您为每个替换对指定不同的成本(http://en.wikipedia.org/wiki/Levenshtein_distance#Possible_modifications,第五项)。因此,您可以通过或多或少地强调常见错误来调整它以适应您的需求。

于 2014-03-31T10:23:51.120 回答
1

我你想要一个字母不匹配的自定义成本函数,你可以看看 Needleman-Wunsch 算法(NW)

于 2014-03-31T11:09:30.497 回答