我正在尝试通过 url 阅读 pdf。我遵循了许多 stackoverflow 建议并使用 PyPdf2 FileReader 从 pdf 中提取文本。我的代码如下所示:
url = "http://kat.kar.nic.in:8080/uploadedFiles/C_13052015_ch1_l1.pdf"
#url = "http://kat.kar.nic.in:8080/uploadedFiles/C_06052015_ch1_l1.pdf"
f = urlopen(Request(url)).read()
fileInput = StringIO(f)
pdf = PyPDF2.PdfFileReader(fileInput)
print pdf.getNumPages()
print pdf.getDocumentInfo()
print pdf.getPage(1).extractText()
我能够成功提取第一个链接的文本。但是,如果我对第二个 pdf 使用相同的程序。我没有收到任何文字。页码和文档信息似乎出现了。
我尝试通过终端从 Pdfminer 中提取文本,并且能够从第二个 pdf 中提取文本。
知道 pdf 有什么问题,或者我正在使用的库有什么缺点吗?