3

我目前的项目涉及将 pdf 中的文本转录成文本文件,我首先尝试将图像文件直接放入 OCR 程序(tesseract),但效果不佳。原始图像文件基本上是旧报纸,并且有一些背景噪音,我确信 tesseract 有问题。因此,我尝试在将其输入 tesseract 之前使用一些图像预处理。有没有适合这种情况的开源图像预处理引擎的建议???以及如何使用它的说明将更加感激!

4

3 回答 3

5

我从未听说过为此目的的“图像预处理引擎”,但您可以查看OpenCV(开源计算机视觉库)并实现自己的“预处理引擎”。OpenCV是一个计算机视觉库,它提供了许多功能来执行图像处理。

作为预处理步骤,您可能想要测试的一件有趣的事情是对图像应用阈值以去除噪音和东西。无论如何,我已经在这个线程中谈到了这种东西

于 2013-03-21T21:38:38.713 回答
4

就像@karlphillip 提到的那样,我非常怀疑是否有一个现成的预处理引擎可用于您的目的,因为预处理技术与所需结果有很大差异。

清除噪声图像中文本的一些常用方法包括: 1. 自适应阈值处理(Sauvola 或 Niblack 二值化) 2. 应用尺寸略大于文本的中值滤波器来获得背景图像,然后从图像中减去背景原始图像(去除较大的噪点,如折痕、污渍、手写笔记等)。

OpenCV 实现了这些过滤器/二值化方法。如果您可以访问已发表的文献,那么在噪声文档的二值化方面有相当多的工作。

于 2013-03-22T14:24:00.373 回答
0

查看ScanTailor。它具有令人印象深刻的预处理功能,并且是开源的。

于 2014-03-10T06:05:19.760 回答