9

我正在尝试使用 Python 从 PDF 中提取文本,并且我已经使用 PyPDF2 成功地做到了这一点,如下所示:

import PyPDF2
pdfFileObj = open('path', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)
pageObj.extractText()

这会从页面中提取所有文本,但我只想从页面左上角的 3'x4' 矩形区域中提取文本。

我基本上想做类似的事情:如何从特定矩形区域内的 pdf 文档中提取文本?但在 Python 中

这可以通过 PyPDF2 或任何其他 Python 库来完成吗?

4

1 回答 1

3

这是一个相当复杂的话题,但这是可能的。首先,您需要熟悉 pdf 格式说明。

例如从这里开始。

您可以识别文本框的位置和内容并提取字符串数据。

主题包含 pyPdf(PyPDF2 的先前版本)的示例,但语法相似。有关于如何遍历间接对象的示例。

一个好的起点也是您使用的函数pageObj.extractText()的来源。

如果您不限于 Python:如何从 PDF 中提取文本?

您还可以使用iText RUPS之类的工具来检查 pdf。它显示了内容是如何呈现和放置在页面上的:

在此处输入图像描述

之后,您应该能够识别和处理元素并提取它们的内容。

于 2017-08-21T07:26:42.263 回答