我需要一个实用程序来将 TIFF 文件批量转换为可索引的 PDF。该软件需要在 linux 上运行,并且必须从命令行运行。该软件不需要是开源的。我已经尝试使用 tesseract 和 hocr2pdf 进行转换,但是它们会生成带有乱码文本的 PDF(注意:只有在 PDF 中“全选”文本时,文本才会出现乱码)。我找到了其他实用程序,但它们只能在 Windows 下运行,或者不能从命令行运行。提前致谢。
问问题
1975 次
5 回答
1
于 2012-05-30T12:05:20.633 回答
1
Mogrify 应该能够帮助您:
于 2012-05-29T15:09:36.387 回答
0
在尝试了几种工具(包括 Abbyy)后,我决定选择:Vividata。他们有不错的定价,在 Linux 下运行,并且没有每年一页的限制。
于 2012-07-03T05:00:03.817 回答
0
这个答案是倾斜的,只是部分的。如果它不适用于您,请忽略。
可能有这样的软件,但我不熟悉。如果您的需求足够强大以至于您将编写 2000 行左右的代码来满足它,那么有面向 Linux 的Libpoppler,它为您提供了编写程序的界面,以按照您的方式制作自己的自定义 PDF想要它。不幸的是,Libpoppler 虽然很有价值,但编写代码并不是特别愉快;不幸的是,如果您对其进行编码,那么您可能会发现自己正在阅读大量的 PDF 标准。
如果您确实编写了此类软件,您可能会考虑将其作为开源发布。
祝你好运。
于 2012-05-29T15:14:56.173 回答
0
我编写了一个使用 Tesseract 3 或 Abbyy OCR 11 的 bash 脚本。它可以批量转换或在目录监视器模式下运行。
在你的情况下
pmocr.sh --batch --target=PDF /path/to/tiff/files
在此处查看脚本: https ://github.com/deajan/pmOCR
于 2016-09-11T15:51:17.443 回答