python-3.x - PyPDF2不打印文本的任何输出

Question

我正在尝试使用 PyPDF2 从 pdf 打印文本。这是我的代码：

import PyPDF2
pdf_file = open('report.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(1)
page_content = page.extractText()
print (page_content.encode('utf-8'))

结果我得到了一些警告的空行。

PdfReadWarning: Xref table not zero-indexed. ID numbers for objects will be corrected. [pdf.py:1736]
b''

我已经检查过这个警告本身不会影响结果，但就我而言，我什么也没得到。有什么建议么。谢谢

score 0 · Accepted Answer

尝试像这样更改您的代码：

import PyPDF2
pdf_file = open('report.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page_content = read_pdf.getPage(1).extractText()
print (page_content.encode('utf-8','strict'))

python-3.x - PyPDF2不打印文本的任何输出

1 回答 1

Related

Reference