0

我正在开发一个从政府网站下载一些 PDF 文档的应用程序。这些文档几乎总是附有我需要提取的 pdf/xml 文件。该应用程序在 python 中并在 linux 上运行。然而,为了提取这些文件,我曾经对 pdftk 进行系统调用来提取文件。我现在将此应用程序移动到 Amazon EC2/Amazon AMI。事实证明,Amazon AMI 不支持 pdftk(因为缺乏对 gcj-jre 的支持)。有没有其他方法可以从 pdf 文件中提取附件?纯python还是linux命令行?PyPDF 似乎没有这个。我也找不到其他的。

PS - 我不想离开 Amazon AMI,因为我已经配置了所有其他东西并且它工作正常。

PPS - 如果有任何强有力的理由(除了没有 pdftk)从 Amazon AMI 转移到 Ubuntu/CentOS,我想知道。我正在构建的应用程序最终可能会非常庞大​​。

4

0 回答 0