python - 用于从 pdf 文件中提取附件的 linux/python 实用程序（注意：pdftk 除外）

翻译自：https://stackoverflow.com/questions/19291029 2013-10-10T08:42:41.073

1742 次

我正在开发一个从政府网站下载一些 PDF 文档的应用程序。这些文档几乎总是附有我需要提取的 pdf/xml 文件。该应用程序在 python 中并在 linux 上运行。然而，为了提取这些文件，我曾经对 pdftk 进行系统调用来提取文件。我现在将此应用程序移动到 Amazon EC2/Amazon AMI。事实证明，Amazon AMI 不支持 pdftk（因为缺乏对 gcj-jre 的支持）。有没有其他方法可以从 pdf 文件中提取附件？纯python还是linux命令行？PyPDF 似乎没有这个。我也找不到其他的。

PS - 我不想离开 Amazon AMI，因为我已经配置了所有其他东西并且它工作正常。

PPS - 如果有任何强有力的理由（除了没有 pdftk）从 Amazon AMI 转移到 Ubuntu/CentOS，我想知道。我正在构建的应用程序最终可能会非常庞大。

python - 用于从 pdf 文件中提取附件的 linux/python 实用程序（注意：pdftk 除外）

0 回答 0

Related

Reference