python - 使用 PyPDF2 从 PDF 中逐行提取事务数据

问问题 2017-09-28T02:26:17.720

232 次

我正在尝试使用 Python 3 从 PDF 中提取交易数据作为一个简单的程序。我看到的是输出从第 1 页返回为垃圾文本。这发生在特定的银行对账单 pdf 上，而其他 PDF 工作正常。

import PyPDF2

pdfFileObj = open('st1.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(1)
print(pageObj.extractText())

6
ÉŁ@äKâKñ øððõòô õùô`øòððóøøðÅ¢Š†IŒﬁñ</code>øøøôôöóóðøããèñøððùõõøðöð×†¨@‡¨@Š‹ŒŁ– ñøððôóö÷ùõøÖ¤£¢›—–@äKâK@…†ﬁﬁ@…Œﬁﬁ–…£ñ<code>óðò

不知道其他人是否有类似的问题？或任何建议？

python - 使用 PyPDF2 从 PDF 中逐行提取事务数据

0 回答 0

Related

Reference