我正在从 pdf 文件中读取文本,如下所示:
pdf_reader = PyPDF2.PdfFileReader(pdf_file_obj)
page_count = pdf_reader.numPages
text = ''
for i in xrange(page_count):
text += pdf_reader.getPage(i).extractText()
然而,输出是一个长的 unicode 对象,只包含\n
字符。该文件未加密。
无法从该文件中读取文本的任何解释?