我有多个 (30) 个 PDF 文件,每个包含 48-96 页。所有页面的布局都是相同的,只有其他内容(数字、图表)。
背景:这些页面是光纤电缆测量的 PDF 报告,我必须按照电缆的衰减对它们进行分类。由于机密问题,我很遗憾无法提供示例文件。
为了验证这些报告,我们正在做一些控制样本,这就是为什么我需要对报告进行排序。现在的问题是:如何仅将所有 pdf 文件中所有页面的特定部分导出为我可以排序的某种格式?
如前所述,值在页面上的位置非常具体。它也已经是“解析”的内容,因此可以在 PDF 文件中“作为文本”使用,因此不会被扫描,也不需要 OCR。
任何帮助表示赞赏。我目前不知道如何解决这个问题,它可能是一些做类似事情的工具,或者是解决这个问题的编程方法。