fonts - OCR 的理想字体是什么？

Question

有人对 OCR 的不同字体有任何经验吗？我正在生成一个 ID，然后尝试使用 tesseract 对其进行扫描。目前我只是 T&E'n 不同的字体，但这似乎效率很低。我尝试过 OCR* 系列字体，以及其他各种字体，例如 Arial 和 Georgia。tesseract 容易与 OCR* 字体混淆。

是否有任何专为 tesseract 设计的字体，或任何适用于它的系统字体？

score 19 · Accepted Answer

好吧，在google上搜索出来这个，具体的OCR字体： OCR Font

看起来这是 1973 年采用的标准。

score 19 · Accepted Answer

在尝试了很多不同的字体和OCR 引擎之后，我倾向于使用Consolas获得最好的结果。它是像 OCR-A 一样的等宽字体，但更易于人类阅读。Consolas 包含在多个 Microsoft 产品中。

还有一个开源字体Inconsolata，它是受Consolas 影响的。Inconsolata 是 Consolas 的一个很好的替代品，尤其是考虑到许可细节。

在我的测试中，Calibri字体中的数字和空格并不总是被正确识别。OCR-A 给出了很多阅读错误。我没有尝试 MIRC，因为它对大多数人来说不容易阅读。

注意：tesseract 需要大量测试和微调才能可靠。在我们的案例中，我们改用了商业许可的 OCR 引擎 (ABBYY)，尤其是因为可靠性非常重要，而且我们需要支持多种（欧洲）语言。

更新： 2017 年 1 月 31 日 -由于潜在的版权问题，将“基于 Consolas ”更改为“受 Consolas 影响”。

score 5 · Accepted Answer

我发现 Calibri 最适合我。我们每天在自动化系统中使用 OCR 软件，并且在测试了数十种字体（包括一些 OCR 特定字体）之后，Calibri 始终是最好的。

祝你好运。

score 4 · Accepted Answer

我可能会使用银行在支票底部用于路由号码的相同字体：

http://morovia.com/font/micr.asp

它是专门设计为明确的机器可读的。

score 3 · Accepted Answer

这实际上取决于所考虑的 OCR 引擎。

对于 gocr，FreeMono 是最好的，请参阅 gocr 文档。

对于 tesseract，DejaVu-Serif 效果很好，请参阅https://superuser.com/a/1543382/280936

对于 abbyocr，verdana 很好，看这个比较

另请参阅此总结：https ://www.monperrus.net/martin/perfect-ocr-digital-data

score 2 · Accepted Answer

2

我总是通过简单地使用新罗马时代来取得成功。

于 2008-11-25T01:09:23.673 回答

score 1 · Accepted Answer

我最近在一个名为 Laserfiche 的 ECM 中进行了广泛的测试，它使用 Nuance OmniPage，我发现等宽字体与动态间隔字体相比表现不佳。那些旧的 OCR 字体的性能不如看起来更“正常”的字体。特别是对于像第 12 点这样的较小字体大小的数字字符串。

奇怪的是其他人在 Calibri 上取得了成功。它在我的测试中表现很差，经常让看起来相似的字母和数字相互混淆。最好的字体（在安装了 Office 的 Windows 计算机上的字体中）是 Consolas、Verdana 和 Book Antiqua。所有字母和数字看起来不同的动态衬线字体。康索拉斯是冠军。

score 0 · Accepted Answer

0

目前使用等宽。尝试了很多字体，但这对我来说是最准确的。

于 2016-05-19T17:37:48.807 回答

fonts - OCR 的理想字体是什么？

8 回答 8

Related

Reference