0

我使用 ghostscript 将 PDF 转换为带有 C$ 类包装器的 Tif,然后使用 OCR tessnet2 读取图像文件的内容,但 tif 图像几乎不可读,图像非常褪色,看起来不正确,而且 OCR 引擎无法阅读任何内容。是否有任何开源或库可以花费我几美元来将 PDF 转换为高质量的 TIf?或任何读取 PDF 的开源 OCR 引擎,因为 tessnet2 无法读取 PDF。

4

3 回答 3

1

正如 DaNet 所说,我不确定是否有任何开源 DLL 或免费方法可以做到这一点。我们使用了一个名为leadtools 的第三方工具包,它在OCR PDF 文档时为我们提供了非常好的结果。您可以使用它对图像进行一些处理(即二值化,从图像中删除不需要的点,将其转换为 1 位黑白,将其保存为 TIF 图像等),然后将其传递给他们的 OCR引擎。我知道他们有一个在线演示,你可以试试。这是演示的链接:http: //demo.leadtools.com/OnlineRecognitionDemo

如果结果符合您的要求,您可以查看本教程: 扫描到可搜索的 PDF

于 2012-09-06T09:29:34.837 回答
0

我不确定开源 OCR,但如果你使用 ghostscript 生成的 tiff 的分辨率输出,你应该没有问题。

尝试将 -r150 添加到 ghostscript 包装器的“字符串 args”中以更改分辨率,并希望得到一个合适大小的兆字节文件!

于 2012-08-30T22:25:59.180 回答
0

我必须将 imageMagicNET 类输出格式的属性更改为 png16m 和 DPI,以便生成的图像质量高且对 OCR 引擎可读

于 2012-09-05T23:05:45.303 回答