pdf - PDF文档操作

Question

我有几个具有以下属性的 PDF：

每个 PDF 包含可变数量的“文档”，其页数不同。

“文档”中的每一页都有文本，例如“第 3 页，共 26 页”。

我希望能够自动识别 PDF 中每个“文档”的第一页和最后一页（注意：这与 PDF 的第一页和最后一页不同，因为每个 PDF 可能包含多个“文档”）并提取将它们转换成一个新的 PDF 文件供以后打印和存档。

我不确定我可以使用哪些工具来解决这个问题，以及有哪些库可以解决这个问题。

有什么建议吗？最好是免费的，可用于创建将在 Windows 上运行的工具。

score 1 · Accepted Answer

Java 有一个不错的免费 pdf 库。查看iText。

从 iText 的网站：

您可以使用 iText 来：

由于它是 Java，因此在 Windows 或其他任何地方运行应该没有问题。

score 0 · Accepted Answer

0

您可以尝试使用pdftk对 PDF 进行解压缩，解析数据，拆分，然后重新压缩。

于 2009-04-08T15:53:02.800 回答

score 0 · Accepted Answer

我设法想出了一个可行的可怕的 unix hack：

应该可以在我的 unix 平台上工作，但不确定将所有这些工具带入 windows 环境是否可以接受。

一种可能性是使用电子邮件网关来接收 pdf 并返回处理后的 pdf，这使得它更加丑陋。

有本机win32解决方案的人吗？

3 回答 3