我目前的项目涉及将 pdf 中的文本转录成文本文件,我首先尝试将图像文件直接放入 OCR 程序(tesseract),但效果不佳。原始图像文件基本上是旧报纸,并且有一些背景噪音,我确信 tesseract 有问题。因此,我尝试在将其输入 tesseract 之前使用一些图像预处理。有没有适合这种情况的开源图像预处理引擎的建议???以及如何使用它的说明将更加感激!
问问题
10539 次
3 回答
4
就像@karlphillip 提到的那样,我非常怀疑是否有一个现成的预处理引擎可用于您的目的,因为预处理技术与所需结果有很大差异。
清除噪声图像中文本的一些常用方法包括: 1. 自适应阈值处理(Sauvola 或 Niblack 二值化) 2. 应用尺寸略大于文本的中值滤波器来获得背景图像,然后从图像中减去背景原始图像(去除较大的噪点,如折痕、污渍、手写笔记等)。
OpenCV 实现了这些过滤器/二值化方法。如果您可以访问已发表的文献,那么在噪声文档的二值化方面有相当多的工作。
于 2013-03-22T14:24:00.373 回答
0
查看ScanTailor。它具有令人印象深刻的预处理功能,并且是开源的。
于 2014-03-10T06:05:19.760 回答