python - 如何在 Python 中删除 PDF 文本提取中的换行符？

Question

我使用 PyMuPDF 来获取 PDF 中的文本，这是我的代码

import fitz

pdf_document = "KRIP.pdf"
doc = fitz.open(pdf_document)

page1 = doc.loadPage(0)
page1text = page1.get_text()
print("Text from PDF: ", page1text)

输出应该是

KRIPTOGRAFI

但事实证明

KRIPTOGRAFI

“KRIPTOGRAFI”一词后有一个换行符。有什么办法可以去掉吗？

score 1 · Accepted Answer

您需要删除最后的空白。该功能strip()为您做到这一点。

您的新代码将是：

import fitz

pdf_document = "KRIP.pdf"
doc = fitz.open(pdf_document)

page1 = doc.loadPage(0)
page1text = page1.get_text().strip()
print("Text from PDF: ", page1text)

python - 如何在 Python 中删除 PDF 文本提取中的换行符？

1 回答 1

Related

Reference