4

我正在设置一个服务器来使用 tesseract 执行大量自动 OCR,并且我想对结果进行一些后处理。

在理论方面有很多关于此的资源,但在实践方面我没有找到太多。

我想你可以做一些基本的事情,比如:

  • 连续消除三个相同的字母
  • 用所有元音消除“单词”
  • 消除超过一定长度的“单词”
  • 等等。

我没有考虑太多,但是 OCR 文本被输入到搜索系统中,所以保持字图很小是一件好事,消除或修复明显错误的词也是如此。

如果重要的话,内容本身就是用英文写的法庭文件。所以时不时会有专有名词,但词的种类可能并不多,而且字体可能相当稳定。

我应该知道的任何指针或好的资源?

4

1 回答 1

-1

每个 OCR 引擎都有自己的一组常见错误,这些错误还取决于文档中的字体、扫描质量、使用的 dpi、颜色背景和使用的图像预处理,例如去斑、去歪斜、线条去除。您只能通过执行大量测试运行并分析结果以寻找一组常见错误来了解这些错误是什么。

使用正确的扫描仪设置和图像预处理算法可以显着改善 OCR 结果。不要小看这部分。

如果文本主要是英语单词,那么带有模糊查找系统的好词典将非常有帮助。其他有用的技术是使用第二个 OCR 引擎进行三元分析和投票。

于 2012-01-24T05:06:07.487 回答