c# - 时间：2019-01-10 标签：c#convert PDF to Tif

Question

我使用 ghostscript 将 PDF 转换为带有 C$ 类包装器的 Tif，然后使用 OCR tessnet2 读取图像文件的内容，但 tif 图像几乎不可读，图像非常褪色，看起来不正确，而且 OCR 引擎无法阅读任何内容。是否有任何开源或库可以花费我几美元来将 PDF 转换为高质量的 TIf？或任何读取 PDF 的开源 OCR 引擎，因为 tessnet2 无法读取 PDF。

score 1 · Accepted Answer

正如 DaNet 所说，我不确定是否有任何开源 DLL 或免费方法可以做到这一点。我们使用了一个名为leadtools 的第三方工具包，它在OCR PDF 文档时为我们提供了非常好的结果。您可以使用它对图像进行一些处理（即二值化，从图像中删除不需要的点，将其转换为 1 位黑白，将其保存为 TIF 图像等），然后将其传递给他们的 OCR引擎。我知道他们有一个在线演示，你可以试试。这是演示的链接：http: //demo.leadtools.com/OnlineRecognitionDemo

如果结果符合您的要求，您可以查看本教程：扫描到可搜索的 PDF

score 0 · Accepted Answer

我不确定开源 OCR，但如果你使用 ghostscript 生成的 tiff 的分辨率输出，你应该没有问题。

尝试将 -r150 添加到 ghostscript 包装器的“字符串 args”中以更改分辨率，并希望得到一个合适大小的兆字节文件！

score 0 · Accepted Answer

我必须将 imageMagicNET 类输出格式的属性更改为 png16m 和 DPI，以便生成的图像质量高且对 OCR 引擎可读

c# - 时间：2019-01-10 标签：c#convert PDF to Tif

3 回答 3

Related

Reference