35

有人对 OCR 的不同字体有任何经验吗?我正在生成一个 ID,然后尝试使用 tesseract 对其进行扫描。目前我只是 T&E'n 不同的字体,但这似乎效率很低。我尝试过 OCR* 系列字体,以及其他各种字体,例如 Arial 和 Georgia。tesseract 容易与 OCR* 字体混淆。

是否有任何专为 tesseract 设计的字体,或任何适用于它的系统字体?

4

8 回答 8

19

好吧,在google上搜索出来这个,具体的OCR字体: OCR Font

看起来这是 1973 年采用的标准。

于 2008-11-25T01:09:06.233 回答
19

在尝试了很多不同的字体和OCR 引擎之后,我倾向于使用Consolas获得最好的结果。它是像 OCR-A 一样的等宽字体,但更易于人类阅读。Consolas 包含在多个 Microsoft 产品中。

还有一个开源字体Inconsolata,它是Consolas 影响的。Inconsolata 是 Consolas 的一个很好的替代品,尤其是考虑到许可细节。

在我的测试中,Calibri字体中的数字和空格并不总是被正确识别。OCR-A 给出了很多阅读错误。我没有尝试 MIRC,因为它对大多数人来说不容易阅读。

注意:tesseract 需要大量测试和微调才能可靠。在我们的案例中,我们改用了商业许可的 OCR 引擎 (ABBYY),尤其是因为可靠性非常重要,而且我们需要支持多种(欧洲)语言。

更新: 2017 年 1 月 31 日 -由于潜在的版权问题,将“基于 Consolas ”更改为“受 Consolas 影响”。

于 2011-01-02T13:12:29.590 回答
5

我发现 Calibri 最适合我。我们每天在自动化系统中使用 OCR 软件,并且在测试了数十种字体(包括一些 OCR 特定字体)之后,Calibri 始终是最好的。

祝你好运。

于 2010-02-02T21:42:44.267 回答
4

我可能会使用银行在支票底部用于路由号码的相同字体:

http://morovia.com/font/micr.asp

它是专门设计为明确的机器可读的。

于 2008-11-25T01:08:17.047 回答
3

这实际上取决于所考虑的 OCR 引擎。

对于 gocr,FreeMono 是最好的,请参阅 gocr 文档。

对于 tesseract,DejaVu-Serif 效果很好,请参阅https://superuser.com/a/1543382/280936

对于 abbyocr,verdana 很好,看这个比较

另请参阅此总结:https ://www.monperrus.net/martin/perfect-ocr-digital-data

于 2020-11-13T21:29:09.000 回答
2

我总是通过简单地使用新罗马时代来取得成功。

于 2008-11-25T01:09:23.673 回答
1

我最近在一个名为 Laserfiche 的 ECM 中进行了广泛的测试,它使用 Nuance OmniPage,我发现等宽字体与动态间隔字体相比表现不佳。那些旧的 OCR 字体的性能不如看起来更“正常”的字体。特别是对于像第 12 点这样的较小字体大小的数字字符串。

奇怪的是其他人在 Calibri 上取得了成功。它在我的测试中表现很差,经常让看起来相似的字母和数字相互混淆。最好的字体(在安装了 Office 的 Windows 计算机上的字体中)是 Consolas、Verdana 和 Book Antiqua。所有字母和数字看起来不同的动态衬线字体。康索拉斯是冠军。

于 2017-12-21T15:19:58.497 回答
0

目前使用等宽。尝试了很多字体,但这对我来说是最准确的。

于 2016-05-19T17:37:48.807 回答