我目前正在用 python 构建一个程序来抓取和解析 pdf,希望比目前可用的更优雅。
从 python 中的 pdfquery 输出的数据结构层次结构是:(希望这是有道理的)
PDFDocument
PDFPage[1]
PDFElement[1]
PDFElement[2]
...
PDFEleement[i]
PDFPage[2]
PDFElement[1]
PDFElement[2]
...
PDFEleement[i]
....
PDFPage[i]
PDFElement[1]
PDFElement[2]
...
PDFElement[i]
我想创建一个 OO python 数据结构,如上所述设置层次结构。将 pdfElement 类对象 [s] 作为 pdfPage 类对象 [s] 的属性嵌入,这些对象作为 pdfDocument 元素的属性嵌入。
这必须在创建类时迭代地完成。我想知道这是否是构建数据的最佳方式,或者我最好做其他事情?如果我有几百页,每页可能包含 30 到 50 个元素,我也想知道任何关于“昂贵”的想法。