我有几个具有以下属性的 PDF:
每个 PDF 包含可变数量的“文档”,其页数不同。
“文档”中的每一页都有文本,例如“第 3 页,共 26 页”。
我希望能够自动识别 PDF 中每个“文档”的第一页和最后一页(注意:这与 PDF 的第一页和最后一页不同,因为每个 PDF 可能包含多个“文档”)并提取将它们转换成一个新的 PDF 文件供以后打印和存档。
我不确定我可以使用哪些工具来解决这个问题,以及有哪些库可以解决这个问题。
有什么建议吗?最好是免费的,可用于创建将在 Windows 上运行的工具。