image-processing - OCR - 大多数“不同”或“可识别”的 ASCII 字符？

Question

我正在寻找一种方法来确定最“不同”或“可识别”的 N 个 ASCII 字符...例如，如果 N = 10，从 0x21 到 0x7E 的 ASCII 集中最不同的 N 个字符是什么？显然，字符“X”与“O”（字母）非常不同，但“O”（字母）与“0”（零）非常相似。假设一个受限制的 OCR 字符子集，这样零和字母 O 将被检测为一个或另一个，并且不必担心它是零还是字母 O，那么最不同的 N 是什么典型的 OCR 引擎（例如 Tesseract）容易从质量差的输入图像中识别出的字符？假设。例如“+”和“t”可能会被广泛地误认为是彼此。可以制作，

谢谢，本

score 4 · Accepted Answer

不幸的是，我认为不会有一个唯一的答案。

这将取决于字体：比较 0、f、s 的不同表示方式以及风格的蓬勃发展。

这将取决于字符在被扫描之前受到的损坏类型，有些可能更能抵抗污迹，有些则可以抵抗割伤，有些则可以抵抗过度书写。

如果您正在寻找一种最适合在打印、扫描和 OCRed 中幸存的表示，那么一维或二维条码可能是更好的选择？

score 1 · Accepted Answer

只有一种方法可以回答这个问题：测试它。为每个字母创建一组样本，并对每个样本运行 OCR。OCR 最常正确识别的字母是最“可识别”的；OCR 最常出错的字母是最“不同”的。

image-processing - OCR - 大多数“不同”或“可识别”的 ASCII 字符？

2 回答 2

Related

Reference