我需要对经过数字到模拟(隔行视频)到数字转换的图像进行 OCR,然后进行 jpeg 压缩(导致压缩伪影)。我无法找到使用的确切字体,但我们将研究无衬线字体的组合——例如,Arial、Calibri 和 Tiresias 可能作为训练集效果很好。没有办法绕过 jpeg 压缩。这些是标准 def 分辨率(720x480 去隔行)的纯文本、黑白图像。
一个示例位于此处,调整为 1000%:
我发现了一个对 Tesseract 非常有效的预处理管道:
- 调整为 400-600%
- 模糊
- 阈值(二值化)
- 侵蚀(获得更细的笔划宽度)
一个问题是像“t”和“f”这样的字母在十字架上最终会变成菱形。尽管如此,这个过程运作良好,但并不十分完美。所以我想训练tesseract。我的问题:
我应该如何创建训练集?
我是否应该尝试通过添加少量噪声来模拟模拟到数字到模拟,然后用 jpeg 压缩?我应该像上面列出的那样对我的训练集进行预处理吗?如果我使用嘈杂的 jpeg 压缩图像进行训练以匹配我捕获的图像,是否最好跳过对捕获图像的预处理?
此外,在不牺牲文本的情况下摆脱转换/压缩工件的任何提示将不胜感激。