我试图从网页获取 PDF,对其进行解析并使用PyPDF2将结果打印到屏幕上。我使用以下代码使其正常工作:
with open("foo.pdf", "wb") as f:
f.write(requests.get(buildurl(jornal, date, page)).content)
pdfFileObj = open('foo.pdf', "rb")
pdf_reader = PyPDF2.PdfFileReader(pdfFileObj)
page_obj = pdf_reader.getPage(0)
print(page_obj.extractText())
编写一个文件以便我可以阅读它,虽然听起来很浪费,所以我想我只是用这个切断中间人:
pdf_reader = PyPDF2.PdfFileReader(requests.get(buildurl(jornal, date, page)).content)
page_obj = pdf_reader.getPage(0)
print(page_obj.extractText())
然而,这给我一个AttributeError: 'bytes' object has no attribute 'seek'
. 如何将 PDFrequests
直接来自 PyPDF2?