excel - 提取 PDF 文档的特定部分

Question

我有多个 (30) 个 PDF 文件，每个包含 48-96 页。所有页面的布局都是相同的，只有其他内容（数字、图表）。

背景：这些页面是光纤电缆测量的 PDF 报告，我必须按照电缆的衰减对它们进行分类。由于机密问题，我很遗憾无法提供示例文件。

为了验证这些报告，我们正在做一些控制样本，这就是为什么我需要对报告进行排序。现在的问题是：如何仅将所有 pdf 文件中所有页面的特定部分导出为我可以排序的某种格式？

如前所述，值在页面上的位置非常具体。它也已经是“解析”的内容，因此可以在 PDF 文件中“作为文本”使用，因此不会被扫描，也不需要 OCR。

任何帮助表示赞赏。我目前不知道如何解决这个问题，它可能是一些做类似事情的工具，或者是解决这个问题的编程方法。

score 4 · Accepted Answer

正如您在对原始问题的评论中指出的那样，您已准备好编写解决方案。我建议使用 Java 和iText PDF 库。只要文本实际上是可提取的，它就可以让您从文档中提取文本（您实际上可以将字形放入 PDF 中，但删除从字形到字符的映射）。

您可以在iText in Action — 第 2 版的第 15 章的 ExtractPageContent* 示例中找到使用 iText 提取 PDF 文本的示例代码。特别是ExtractPageContentArea对您的情况感兴趣。

本质上，您只需要获取该样本并对其进行概括，也可以从页面上的多个区域提取文本。

1 回答 1