1

我正在寻找一种方法来确定最“不同”或“可识别”的 N 个 ASCII 字符...例如,如果 N = 10,从 0x21 到 0x7E 的 ASCII 集中最不同的 N 个字符是什么?显然,字符“X”与“O”(字母)非常不同,但“O”(字母)与“0”(零)非常相似。假设一个受限制的 OCR 字符子集,这样零和字母 O 将被检测为一个或另一个,并且不必担心它是零还是字母 O,那么最不同的 N 是什么典型的 OCR 引擎(例如 Tesseract)容易从质量差的输入图像中识别出的字符?假设。例如“+”和“t”可能会被广泛地误认为是彼此。可以制作,

谢谢,本

4

2 回答 2

4

不幸的是,我认为不会有一个唯一的答案。

这将取决于字体:比较 0、f、s 的不同表示方式以及风格的蓬勃发展。

这将取决于字符在被扫描之前受到的损坏类型,有些可能更能抵抗污迹,有些则可以抵抗割伤,有些则可以抵抗过度书写。

如果您正在寻找一种最适合在打印、扫描和 OCRed 中幸存的表示,那么一维或二维条码可能是更好的选择?

于 2009-09-11T19:13:02.307 回答
1

只有一种方法可以回答这个问题:测试它。为每个字母创建一组样本,并对每个样本运行 OCR。OCR 最常正确识别的字母是最“可识别”的;OCR 最常出错的字母是最“不同”的。

于 2009-09-11T19:02:20.240 回答