有人对 OCR 的不同字体有任何经验吗?我正在生成一个 ID,然后尝试使用 tesseract 对其进行扫描。目前我只是 T&E'n 不同的字体,但这似乎效率很低。我尝试过 OCR* 系列字体,以及其他各种字体,例如 Arial 和 Georgia。tesseract 容易与 OCR* 字体混淆。
是否有任何专为 tesseract 设计的字体,或任何适用于它的系统字体?
好吧,在google上搜索出来这个,具体的OCR字体: OCR Font
看起来这是 1973 年采用的标准。
在尝试了很多不同的字体和OCR 引擎之后,我倾向于使用Consolas获得最好的结果。它是像 OCR-A 一样的等宽字体,但更易于人类阅读。Consolas 包含在多个 Microsoft 产品中。
还有一个开源字体Inconsolata,它是受Consolas 影响的。Inconsolata 是 Consolas 的一个很好的替代品,尤其是考虑到许可细节。
在我的测试中,Calibri字体中的数字和空格并不总是被正确识别。OCR-A 给出了很多阅读错误。我没有尝试 MIRC,因为它对大多数人来说不容易阅读。
注意:tesseract 需要大量测试和微调才能可靠。在我们的案例中,我们改用了商业许可的 OCR 引擎 (ABBYY),尤其是因为可靠性非常重要,而且我们需要支持多种(欧洲)语言。
更新: 2017 年 1 月 31 日 -由于潜在的版权问题,将“基于 Consolas ”更改为“受 Consolas 影响”。
我发现 Calibri 最适合我。我们每天在自动化系统中使用 OCR 软件,并且在测试了数十种字体(包括一些 OCR 特定字体)之后,Calibri 始终是最好的。
祝你好运。
这实际上取决于所考虑的 OCR 引擎。
对于 gocr,FreeMono 是最好的,请参阅 gocr 文档。
对于 tesseract,DejaVu-Serif 效果很好,请参阅https://superuser.com/a/1543382/280936
对于 abbyocr,verdana 很好,看这个比较
另请参阅此总结:https ://www.monperrus.net/martin/perfect-ocr-digital-data
我总是通过简单地使用新罗马时代来取得成功。
我最近在一个名为 Laserfiche 的 ECM 中进行了广泛的测试,它使用 Nuance OmniPage,我发现等宽字体与动态间隔字体相比表现不佳。那些旧的 OCR 字体的性能不如看起来更“正常”的字体。特别是对于像第 12 点这样的较小字体大小的数字字符串。
奇怪的是其他人在 Calibri 上取得了成功。它在我的测试中表现很差,经常让看起来相似的字母和数字相互混淆。最好的字体(在安装了 Office 的 Windows 计算机上的字体中)是 Consolas、Verdana 和 Book Antiqua。所有字母和数字看起来不同的动态衬线字体。康索拉斯是冠军。
目前使用等宽。尝试了很多字体,但这对我来说是最准确的。