0

我知道有很多库可以从 PDF 中提取文本。具体来说,我在使用 pymupdf 时遇到了一些困难。从这里的文档:https ://pymupdf.readthedocs.io/en/latest/app4.html#sequencetypes 我希望用来select()选择一个页面间隔,然后使用getText()这是我正在使用的文档linear_regression.pdf

import fitz
s = [1, 2]
doc = fitz.open('linear_regression.pdf')
selection = doc.select(s)
text = selection.getText(s)

但我得到这个错误:

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-23-c05917f260e7> in <module>()
      6 # print(selection)
      7 # text = doc.get_page_text(3, "text")
----> 8 text = selection.getText(s)
      9 text

AttributeError: 'NoneType' object has no attribute 'getText'

所以我假设select()没有被正确使用非常感谢

4

1 回答 1

2

select在这里,根据文档,在内部进行修改doc并且不返回任何内容。在 Python 中,如果一个函数没有显式返回任何内容,它将返回None,这就是您看到该错误的原因。

但是,Document提供了一个名为的方法get_page_text,该方法允许您从特定页面(0 索引)获取文本。因此,对于您的示例,您可以编写:

import fitz
s = [1, 2] # pages 2 and 3
doc = fitz.open('linear_regression.pdf')
text_by_page = [doc.get_page_text(i) for i in s]

现在,您有一个列表,其中列表中的每个项目都是来自不同所需页面的文本。将其转换为字符串的一种简单方法是:

text = ' '.join(text_by_page)

它将两页连接起来,在第一页的最后一个单词和最后一页的第一个单词之间有一个空格(好像根本没有分页符)。

于 2021-06-01T04:45:49.563 回答