ocr - 为 Tesseract OCR 创建训练图像

Question

我正在为 Tesseract OCR 训练图像编写生成器。

在为 Tesseract OCR 的新字体生成训练图像时，最佳值是什么：

新闻部
以磅为单位的字体大小
字体是否应该抗锯齿
边界框是否应紧贴：，或不：

score 2 · Accepted Answer

第二个问题在这里以某种方式得到了回答：http ://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images 没有必要用多种尺寸进行训练。10点就可以了。（一个例外是非常小的文本。如果您想识别 x 高度小于约 15 像素的文本，您应该专门训练它或在尝试识别它们之前缩放您的图像。）

问题 1 和 3：根据经验，我已成功使用 300 dpi 图像/非抗锯齿字体。更具体地说，我在训练 pdf 上使用了以下转换参数，生成了令人满意的图像：

convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif

但后来我尝试向 Tesseract 添加点字体，它仅在我使用 150 dpi 图像时才能正确检测到字符。所以，我认为没有通用的解决方案，这取决于您尝试添加的字体类型。

score 1 · Accepted Answer

我找到了第四个问题的答案 - “边界框是否应该紧贴”。

似乎尽可能多地拟合矩形会产生更好的结果。

正如@Yaroslav 建议的那样，对于其他 12 点和 300 dpi 就足够了。我认为最好关闭抗锯齿。

score 1 · Accepted Answer

tesseract 训练的好工具http://vietocr.sourceforge.net/training.html

这是一个很好的工具，因为它有很多优点

字母上的边界框可以通过基于 GUI 的界面进行编辑
自动创建所有需要文件
自动将freq-dawg、word-dawg、user-words（可以是空文件）、Inttemp、Normproto、Pffmtable、Unicharset、DangAmbigs（可以是空文件）、shapetable 等所有文件合并为单个eng.traineddata文件。
新的训练数据可以与现有的 tesseract 文件一起使用end.traineddata

ocr - 为 Tesseract OCR 创建训练图像

3 回答 3

Related

Reference