python - python：AttributeError：'PDFPage'对象没有属性'extractText'

Question

我正在尝试从 pdf 中提取内容。并想从中创建一个 excel 表。请在下面找到代码。

import pdfquery 
pdf = pdfquery.PDFQuery('C:\\Users\\Santosh\\Downloads\\2017-San-Jamar-
Price-List-US-Z120913E-RevA.pdf')
page = pdf.get_page(3)
page_content = page.extractText()
print (page_content)

它抛出以下错误：

AttributeError                            Traceback (most recent call last)
<ipython-input-32-d6b615faa422> in <module>() 
      1 page = pdf.get_page(3)
----> 2 page_content = page.extractText()
      3 print (page_content)

AttributeError: 'PDFPage' object has no attribute 'extractText'

请让我知道一个可能的解决方案。

谢谢。

score 1 · Accepted Answer

使用 PyPDF2 而不是 pdfquery

import PyPDF2
pdfFileObj = open('C:\\Users\\Santosh\\Downloads\\2017-San-Jamar-
Price-List-US-Z120913E-RevA.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
page = pdfReader.getPage(3)
print(page.extractText())

python - python：AttributeError：'PDFPage'对象没有属性'extractText'

1 回答 1

Related

Reference