python - pdfQuery 结果数据的面向对象数据结构是什么？

翻译自：https://stackoverflow.com/questions/66752201 2021-03-22T18:54:35.090

26 次

我目前正在用 python 构建一个程序来抓取和解析 pdf，希望比目前可用的更优雅。

从 python 中的 pdfquery 输出的数据结构层次结构是：（希望这是有道理的）

PDFDocument
    PDFPage[1]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFEleement[i]
    PDFPage[2]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFEleement[i]
    ....
    PDFPage[i]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFElement[i]

我想创建一个 OO python 数据结构，如上所述设置层次结构。将 pdfElement 类对象 [s] 作为 pdfPage 类对象 [s] 的属性嵌入，这些对象作为 pdfDocument 元素的属性嵌入。

这必须在创建类时迭代地完成。我想知道这是否是构建数据的最佳方式，或者我最好做其他事情？如果我有几百页，每页可能包含 30 到 50 个元素，我也想知道任何关于“昂贵”的想法。

python - pdfQuery 结果数据的面向对象数据结构是什么？

0 回答 0

Related

Reference