8

我正在为 Tesseract OCR 训练图像编写生成器。

在为 Tesseract OCR 的新字体生成训练图像时,最佳值是什么:

  1. 新闻部
  2. 以磅为单位的字体大小
  3. 字体是否应该抗锯齿
  4. 边界框是否应紧贴:在此处输入图像描述,或不:在此处输入图像描述
4

3 回答 3

2

第二个问题在这里以某种方式得到了回答:http ://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images 没有必要用多种尺寸进行训练。10点就可以了。(一个例外是非常小的文本。如果您想识别 x 高度小于约 15 像素的文本,您应该专门训练它或在尝试识别它们之前缩放您的图像。)

问题 1 和 3:根据经验,我已成功使用 300 dpi 图像/非抗锯齿字体。更具体地说,我在训练 pdf 上使用了以下转换参数,生成了令人满意的图像:

convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif

但后来我尝试向 Tesseract 添加点字体,它仅在我使用 150 dpi 图像时才能正确检测到字符。所以,我认为没有通用的解决方案,这取决于您尝试添加的字体类型。

于 2013-05-09T22:24:52.233 回答
1

我找到了第四个问题的答案 - “边界框是否应该紧贴”。

似乎尽可能多地拟合矩形会产生更好的结果。

正如@Yaroslav 建议的那样,对于其他 12 点和 300 dpi 就足够了。我认为最好关闭抗锯齿。

于 2012-11-21T15:12:44.620 回答
1

tesseract 训练的好工具http://vietocr.sourceforge.net/training.html

这是一个很好的工具,因为它有很多优点

  1. 字母上的边界框可以通过基于 GUI 的界面进行编辑
  2. 自动创建所有需要文件
  3. 自动将freq-dawg、word-dawg、user-words(可以是空文件)、Inttemp、Normproto、Pffmtable、Unicharset、DangAmbigs(可以是空文件)、shapetable 等所有文件合并为单个eng.traineddata文件。
  4. 新的训练数据可以与现有的 tesseract 文件一起使用end.traineddata
于 2016-09-05T10:06:09.010 回答