1

我有几个具有以下属性的 PDF:

每个 PDF 包含可变数量的“文档”,其页数不同。

“文档”中的每一页都有文本,例如“第 3 页,共 26 页”。

我希望能够自动识别 PDF 中每个“文档”的第一页和最后一页(注意:这与 PDF 的第一页和最后一页不同,因为每个 PDF 可能包含多个“文档”)并提取将它们转换成一个新的 PDF 文件供以后打印和存档。

我不确定我可以使用哪些工具来解决这个问题,以及有哪些库可以解决这个问题。

有什么建议吗?最好是免费的,可用于创建将在 Windows 上运行的工具。

4

3 回答 3

1

Java 有一个不错的免费 pdf 库。查看iText

从 iText 的网站:

您可以使用 iText 来:

  • 将 PDF 提供给浏览器
  • 从 XML 文件或数据库生成动态文档
  • 使用 PDF 的许多交互功能
  • 添加书签、页码、水印等。
  • 拆分、连接和操作 PDF 页面
  • 自动填写 PDF 表单
  • 将数字签名添加到 PDF 文件
  • 以及更多...

由于它是 Java,因此在 Windows 或其他任何地方运行应该没有问题。

于 2009-04-08T16:47:23.763 回答
0

您可以尝试使用pdftk对 PDF 进行解压缩,解析数据,拆分,然后重新压缩。

于 2009-04-08T15:53:02.800 回答
0

我设法想出了一个可行的可怕的 unix hack:

  • 使用pdftk解压并分解成单独的页面
  • 使用 pdftotext 将每一页转换为文本
  • 编写脚本识别txt中的相应字符串并将对应的pdf复制到子目录中[进行中]
  • 找一些工具重新组合【待查,pdftk可能可以做】

应该可以在我的 unix 平台上工作,但不确定将所有这些工具带入 windows 环境是否可以接受。

一种可能性是使用电子邮件网关来接收 pdf 并返回处理后的 pdf,这使得它更加丑陋。

有本机win32解决方案的人吗?

于 2009-04-08T16:40:02.923 回答