1

我需要一个实用程序来将 TIFF 文件批量转换为可索引的 PDF。该软件需要在 linux 上运行,并且必须从命令行运行。该软件不需要是开源的。我已经尝试使用 tesseract 和 hocr2pdf 进行转换,但是它们会生成带有乱码文本的 PDF(注意:只有在 PDF 中“全选”文本时,文本才会出现乱码)。我找到了其他实用程序,但它们只能在 Windows 下运行,或者不能从命令行运行。提前致谢。

4

5 回答 5

1

这正是您正在寻找的:

http://ocr4linux.com/en:开始

基于 ABBYY 市场上最好的 OCR 的 Linux 命令行 OCR 工具。(免责声明:我为 ABBYY 工作)

于 2012-05-30T12:05:20.633 回答
1

Mogrify 应该能够帮助您:

http://linux.die.net/man/1/mogrify

于 2012-05-29T15:09:36.387 回答
0

在尝试了几种工具(包括 Abbyy)后,我决定选择:Vividata。他们有不错的定价,在 Linux 下运行,并且没有每年一页的限制。

于 2012-07-03T05:00:03.817 回答
0

这个答案是倾斜的,只是部分的。如果它不适用于您,请忽略。

可能有这样的软件,但我不熟悉。如果您的需求足够强大以至于您将编写 2000 行左右的代码来满足它,那么有面向 Linux 的Libpoppler,它为您提供了编写程序的界面,以按照您的方式制作自己的自定义 PDF想要它。不幸的是,Libpoppler 虽然很有价值,但编写代码并不是特别愉快;不幸的是,如果您对其进行编码,那么您可能会发现自己正在阅读大量的 PDF 标准。

如果您确实编写了此类软件,您可能会考虑将其作为开源发布。

祝你好运。

于 2012-05-29T15:14:56.173 回答
0

我编写了一个使用 Tesseract 3 或 Abbyy OCR 11 的 bash 脚本。它可以批量转换或在目录监视器模式下运行。

在你的情况下

pmocr.sh --batch --target=PDF /path/to/tiff/files

在此处查看脚本: https ://github.com/deajan/pmOCR

于 2016-09-11T15:51:17.443 回答