我正在使用 OCR 输出,并且正在其中搜索特殊单词。
由于输出不干净,我根据低于特定阈值的字距查找与我的输入匹配的元素。
但是,我觉得 Levenshtein 距离或 Hamming 距离并不是最好的方法,因为 OCR 似乎总是犯同样的错误:I 代表 1,0 代表 O,Q 代表 O……而这些“经典”错误似乎例如,不如“A for K”重要。结果,这些距离不关心角色外观的差异量(低/高)。
是否有任何专门为 OCR 制作的字距算法,我可以使用它更适合我的情况?或者我应该根据字符的视觉差异经验性地实现我的自定义字距?