pdf - 用于将 TIFF 批量转换为可索引 PDF 的命令行软件

Question

我需要一个实用程序来将 TIFF 文件批量转换为可索引的 PDF。该软件需要在 linux 上运行，并且必须从命令行运行。该软件不需要是开源的。我已经尝试使用 tesseract 和 hocr2pdf 进行转换，但是它们会生成带有乱码文本的 PDF（注意：只有在 PDF 中“全选”文本时，文本才会出现乱码）。我找到了其他实用程序，但它们只能在 Windows 下运行，或者不能从命令行运行。提前致谢。

score 1 · Accepted Answer

这正是您正在寻找的：

http://ocr4linux.com/en:开始

基于 ABBYY 市场上最好的 OCR 的 Linux 命令行 OCR 工具。（免责声明：我为 ABBYY 工作）

score 1 · Accepted Answer

1

Mogrify 应该能够帮助您：

http://linux.die.net/man/1/mogrify

于 2012-05-29T15:09:36.387 回答

score 0 · Accepted Answer

在尝试了几种工具（包括 Abbyy）后，我决定选择：Vividata。他们有不错的定价，在 Linux 下运行，并且没有每年一页的限制。

score 0 · Accepted Answer

这个答案是倾斜的，只是部分的。如果它不适用于您，请忽略。

可能有这样的软件，但我不熟悉。如果您的需求足够强大以至于您将编写 2000 行左右的代码来满足它，那么有面向 Linux 的Libpoppler，它为您提供了编写程序的界面，以按照您的方式制作自己的自定义 PDF想要它。不幸的是，Libpoppler 虽然很有价值，但编写代码并不是特别愉快；不幸的是，如果您对其进行编码，那么您可能会发现自己正在阅读大量的 PDF 标准。

如果您确实编写了此类软件，您可能会考虑将其作为开源发布。

祝你好运。

score 0 · Accepted Answer

我编写了一个使用 Tesseract 3 或 Abbyy OCR 11 的 bash 脚本。它可以批量转换或在目录监视器模式下运行。

在你的情况下

pmocr.sh --batch --target=PDF /path/to/tiff/files

在此处查看脚本： https ://github.com/deajan/pmOCR

pdf - 用于将 TIFF 批量转换为可索引 PDF 的命令行软件

5 回答 5

Related

Reference