我正在为 Tesseract OCR 训练图像编写生成器。
在为 Tesseract OCR 的新字体生成训练图像时,最佳值是什么:
- 新闻部
- 以磅为单位的字体大小
- 字体是否应该抗锯齿
- 边界框是否应紧贴:,或不:
第二个问题在这里以某种方式得到了回答:http ://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images 没有必要用多种尺寸进行训练。10点就可以了。(一个例外是非常小的文本。如果您想识别 x 高度小于约 15 像素的文本,您应该专门训练它或在尝试识别它们之前缩放您的图像。)
问题 1 和 3:根据经验,我已成功使用 300 dpi 图像/非抗锯齿字体。更具体地说,我在训练 pdf 上使用了以下转换参数,生成了令人满意的图像:
convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif
但后来我尝试向 Tesseract 添加点字体,它仅在我使用 150 dpi 图像时才能正确检测到字符。所以,我认为没有通用的解决方案,这取决于您尝试添加的字体类型。
我找到了第四个问题的答案 - “边界框是否应该紧贴”。
似乎尽可能多地拟合矩形会产生更好的结果。
正如@Yaroslav 建议的那样,对于其他 12 点和 300 dpi 就足够了。我认为最好关闭抗锯齿。
tesseract 训练的好工具http://vietocr.sourceforge.net/training.html
这是一个很好的工具,因为它有很多优点
eng.traineddata
文件。end.traineddata