python - pdfquery 不在 BBOX 中返回值

Question

我正在尝试使用 pdfquery 库在 pdf 的所需 bbox 中返回文本。

import pdfquery

pdf = pdfquery.PDFQuery("C:/Users/tyler.cowan/Desktop/PDF Miner/test.pdf")

test =  pdf.extract([
      ('UWI/API', 'LTTextLineHorizontal:in_bbox("35.28,700.56,127.44,717.84")'),
 ])

print(test)

我首先从返回的页面的左上角定义了 bbox

{'UWI/API': [<LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>]}

然后我继续从页面的左下角定义 bbox 并返回类似的。然后我继续定义一个包含整个 8.5" x 11" 页面的 bbox，并返回更多的值而不是所有的文本。我在这里做错了什么吗？我正在关注“快速入门”下的文档。我正在使用 python 2.7

score 0 · Accepted Answer

它在 Bulk Data Scraping 下的该页面下方表示了这一点：

（以('with_formatter', 'text')开头通常很有帮助，因此您会得到类似“Michaels”而不是 [<'LTTextLineHorizontal>] 的结果。有关更多信息，请参阅下面的特殊关键字。）

python - pdfquery 不在 BBOX 中返回值

1 回答 1

Related

Reference