1

我正在将 Tesseract OCR 集成到应用程序中。不幸的是,认可的质量……不是那么好。答案似乎是在将图像发送给 OCR 之前进行一些非常基本的图像清理。

基本上我计划建立一个小的管道,它执行以下操作:

  1. 假设大多数用户会尝试在白色背景上进行普通黑色打印的recco,裁剪到白色边界框(可选)
  2. 转换为黑/白
  3. 去斑去除步骤 2 造成的伪影。

我有 2. 下来(简单的部分),并且正在寻找关于如何做 3 和可选 1 的输入。

4

1 回答 1

0

嗯...事实证明,Martin 建议使用 ImageMagick 可能是我的最佳选择。

有一个 CI 过滤器可以去除噪音,但它在 iOS 中不可用,无论如何我都必须使用 ImageMagick 将 PDF 转换为 TIFF 以进行 OCR,所以 ImageMagick 就是这样。

另一种方法是Chris Greening制作的小型图像处理库。如果您不需要 ImageMagick 的全部力量,它会为您完成大部分轻松的工作,以及一些繁重的工作。

于 2013-08-15T08:02:58.193 回答