所以我在这个问题上花了一个月的大部分时间。我正在寻找一种从由文件的 OCG(可选内容组)组织的矢量化 PDF 中提取几何元素(折线、文本、弧线等)的方法,这些 OCG 基本上是 PDF 图层。使用 PDFminer 我能够提取几何图形(LTCurves、LTTextBoxes、LTLines 等);使用 PyPDF2,我能够查看 PDF 中有多少 OCG,尽管我无法访问与该 OCG 关联的几何图形。我在网上看到并尝试了一些 hacky 脚本,它们可能能够解决这个问题,但无济于事。我什至求助于在文本编辑器中打开原始 PDF 数据,并半危险地删除其中的一部分,看看我是否能想出一些自定义解析技术来做到这一点,但还是无济于事。Adobe的PDF手册充其量是最少的,因此,当我尝试创建解析器时,这无济于事。有谁知道解决这个问题。
在这一点上,我对任何语言的解决方案持开放态度,使用任何操作系统(尽管我更喜欢在 Windows 或 Linux 上使用 Python 3 的解决方案),只要它是开源/免费的。
这里有人能帮助结束这个黑暗的兔子洞吗?非常感激!