image-processing - 需要有关训练 Tesseract OCR 的建议（带有转换/压缩工件的文本）

翻译自：https://stackoverflow.com/questions/19692235 2013-10-30T19:32:13.657

705 次

我需要对经过数字到模拟（隔行视频）到数字转换的图像进行 OCR，然后进行 jpeg 压缩（导致压缩伪影）。我无法找到使用的确切字体，但我们将研究无衬线字体的组合——例如，Arial、Calibri 和 Tiresias 可能作为训练集效果很好。没有办法绕过 jpeg 压缩。这些是标准 def 分辨率（720x480 去隔行）的纯文本、黑白图像。

一个示例位于此处，调整为 1000%：调整大小的图像捕获

我发现了一个对 Tesseract 非常有效的预处理管道：

调整为 400-600%
模糊
阈值（二值化）
侵蚀（获得更细的笔划宽度）

一个问题是像“t”和“f”这样的字母在十字架上最终会变成菱形。尽管如此，这个过程运作良好，但并不十分完美。所以我想训练tesseract。我的问题：

我应该如何创建训练集？

我是否应该尝试通过添加少量噪声来模拟模拟到数字到模拟，然后用 jpeg 压缩？我应该像上面列出的那样对我的训练集进行预处理吗？如果我使用嘈杂的 jpeg 压缩图像进行训练以匹配我捕获的图像，是否最好跳过对捕获图像的预处理？

此外，在不牺牲文本的情况下摆脱转换/压缩工件的任何提示将不胜感激。

image-processing - 需要有关训练 Tesseract OCR 的建议（带有转换/压缩工件的文本）

0 回答 0

Related

Reference