16

我在一个项目中使用 tesseract 并想知道 tesseract 的最佳图像输入类型以提供最佳输出。Binary&TIFF 是最好的输入还是其他?

4

3 回答 3

11

我过去使用 TIFF 完成类似任务时取得了出色的成绩。当时我使用 OpenCV 进行了一些预处理并将结果导出到 TIFF 文件,该文件后来被发送到 tesseract。这是相当不错的。

于 2012-04-19T17:13:21.670 回答
5

我发现 TIFF 比 jpg 提供了更好的结果,并且是对所有其他类型最好的。

最初的 Tesseract 程序只能处理 TIFF 文件,这让我相信它是最合适的

于 2016-03-24T09:57:24.863 回答
0

使用 .tif 的优点是 (1) scantailor 输出 .tif 文件和 (2) 可以使用 tiffcp 将单个 .tif 合并为一个可以馈送到 tesseract 的多页文件。困难在于,如果您让 tesseract 输出 .pdf,那么您无法控制所创建的 .pdf 类型。使用pdfimages -list,我发现它以与输入相同的 dpi 输出 .ccitt 和 .jpeg 的组合。然后,尝试使用 imagemagic 将其转换为较低的 dpi 或其他压缩会产生较差的结果。

我发现的替代方法是首先使用 imagemagic 将所有 .tif 转换为 .png。然后将 .png 逐个提供给 tesseract,为每个 .png 生成一个 .pdf。在这种情况下,.pdf 现在包含光栅图像。然后可以将它们与 imagemagic 组合并重新编码。

我可以在这里看到的唯一缺点是,如果tesseract 正在学习 OCR 的文档(我不知道它是,但它可能是),那么我们希望一次给它整个文档而不是一页一次。

于 2019-01-13T16:21:23.093 回答