python - 在 Python 中从 PDF 中提取水平线和文本

问问题 2017-03-23T17:40:11.877

757 次

PDF是https://www.pdf-archive.com/2017/03/22/pdf/

我正在寻找一个 JSON 文件，其中包含：参考、日期、申请人、位置和提案。我的第一个目标是弄清楚如何通过水平线“拆分”pdf以提取每个单独的应用程序。

我正在使用 PyPDF2

import PyPDF2

pdfFileObj = open('example.pdf','rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pageObj = pdfReader.getPage(0)         
print (pageObj.extractText())

但是我无法让这种拆分发挥作用。我一直试图让 PyPDF2 打印出它从 PDF 中“看到”的所有内容，但也不能这样做。

python - 在 Python 中从 PDF 中提取水平线和文本

0 回答 0

Related

Reference