python - 使用 pdfplumber 提取段落

问问题 2022-02-15T00:28:54.727

41 次

我正在使用 pdfplumber 从 pdf 中提取文本。我能够提取文本行，但无法提取段落。这是我拥有的当前代码。

我要提取的文本示例：

段落标题

Lorem ipsum dolor sit amet，consectetur adipiscing elit，sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。Enim facilisis gravida neque convallis a cras semper auctor neque。

with pdfplumber.open(path_to_pdf) as pdf:
   pageno = 1
   page = pdf.pages[pageno]
   text = page.extract_text(x_tolerance=5)

lines = [x.lower().strip() for x in lines]
print(lines)

我怎样才能改变它来提取段落呢？现在这会给我这个。基本上它是将每一行添加到一个数组中。['段落标题'，'lorem ipsum dolor sit amet，consectetur adipiscing elit，sed do eiusmod tempor incididunt ut labore et'，'dolore magna aliqua。enim facilisis gravida neque convallis a cras semper auctor neque.]

我要它给我这个。它会将段落标题和段落添加到数组中。['段落标题'，'Lorem ipsum dolor sit amet，consectetur adipiscing elit，sed do eiusmod tempor incididunt ut labore et dolore magna aliqua。Enim facilisis gravida neque convallis a cras semper auctor neque。']

python - 使用 pdfplumber 提取段落

0 回答 0

Related

Reference