python - 是否可以在 Python 中提取带有空格的 pdf？

Question

在创建了使用 java 和 pdfbox 提取 PDF 的工具后，我一直在尝试使用 Python 提取 pdf。

虽然 Java 实现对于同一个 pdf 是成功的，但我一直在努力在 python 中做同样的事情，因为 pdfminer 和 pypdf 和 pypdf2 都无法使用空格逐行提取 pdf。特别是，pdfminer pdf2txt 出于某种奇怪的原因将 pdf 分成 3 列，然后逐行读取。

我得到的最接近的是使用堆栈溢出问题的实现，不幸的是它没有保留空格。鉴于我有两个都有数字的变量，我无法以文本形式恢复它们。

鉴于此，是否可以在 Python 中逐行提取带有空格的 pdf？

score 0 · Accepted Answer

您可以使用Aspose.PDF Cloud SDK for Python从 PDF 中逐行提取文本以及空格。目前，它支持来自云存储（Amazon S3、DropBox、Google Drive Storage、Google Cloud Storage、Windows Azure Storage、FTP Storage 和 Aspose 默认云存储）的文件处理。

这是示例代码：

import os
import asposepdfcloud
from asposepdfcloud.apis.pdf_api import PdfApi

# Get Client Id and Client Secret from https://cloud.aspose.com
pdf_api_client = asposepdfcloud.api_client.ApiClient(
    app_key='xxxxxxxxxxxxxxxxxx',
    app_sid='xxxx-xxxx-xxxx-xxxx-xxxxxxxxxx')

pdf_api = PdfApi(pdf_api_client)
temp_folder="Temp"

#upload PDF file to storage
data_file = "C:/Temp/02_pages.pdf"
remote_name="02_pages.pdf"
pdf_api.upload_file(temp_folder + '/' + remote_name,data_file)

llx = 0
lly = 0
urx = 0
ury = 0

response = pdf_api.get_text(remote_name, llx, lly, urx, ury, folder= temp_folder)

for i in response.text_occurrences.list:
    print(i.text)

PS：我是 Aspose 的开发布道者

score 0 · Accepted Answer

在我的情况下，以下作品：

from pdf2image import convert_from_path
import pytesseract

images = convert_from_path("sample.pdf")
for i,image in enumerate(images,start=1):
    image.save(f"./images/page_{i}.jpg","JPEG")

print(pytesseract.image_to_string("./images/page_1.jpg"))

这里的想法是首先将 PDF 转换为图像，然后从中读取文本。这种方法保留了空白。

依赖：

conda install -c conda-forge tesseract
康达安装pdf2image
康达安装pytesseract

python - 是否可以在 Python 中提取带有空格的 pdf？

2 回答 2

Related

Reference