25

我想知道 Tesseract OCR 使用的配置文件接受哪些参数,如何编写配置文件等。

我在他们的网站上找不到任何关于此的文档。如何确定支持哪些参数以及它们的含义?

4

3 回答 3

18

我在下面的链接中找到了这些说明。他们是关于编写配置文件以及放置它的位置:

config 文件是没有 BOM 和 Unix 行尾标记的简单文本文件(在 Windows 上,您可以使用一些高级文本编辑器,例如 Notepad++ 来实现这一点)。

如果您使用 tesseract 可执行文件,这是更改 tesseract 参数的唯一方法。

配置文件应该位于您的 tessdata/configs 目录中。看看那里的一些例子。

在http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version中有一个所有变量的列表以及每个变量的描述。请注意,它适用于 Tesseract 3.02,其他版本可能会有所不同。

编辑:还添加一个pastebin 链接,以防上述链接失效。

于 2013-03-28T05:50:06.537 回答
16

Tesseract v3.04 现在提供命令行选项--print-parameters,因此您可以调用tesseract --print-parameters以获取 678 (!) 个可配置参数的列表、它们的默认值和简短描述:

Tesseract parameters:
editor_image_xpos   590 Editor image X Pos
editor_image_ypos   10  Editor image Y Pos
editor_image_menuheight 50  Add to image height for menu bar
editor_image_word_bb_color  7   Word bounding box colour
editor_image_blob_bb_color  4   Blob bounding box colour
editor_image_text_color 2   Correct text colour
...and many, many more
于 2016-04-12T22:02:49.003 回答
9

它只是一个纯文本文件,其中包含用于 Tesseract 配置变量的以空格分隔的键/值对,每个位于单独的行上;例如:

interactive_display_mode T
tessedit_display_outwords T

在 Tesseract tessdata/configs文件夹下有几个标准配置文件——例如digits、hocr 。

于 2012-10-26T21:40:52.940 回答