我正在尝试做类似的事情(解析银行对账单)并且遇到了同样的问题。到目前为止,我发现解决此问题的唯一方法是单独解析每个页面。
唯一的问题是,这需要提前知道您的文件由多少页组成。目前我还没有找到如何直接使用 Tabula 执行此操作,因此我决定使用 pyPdf 模块来获取页数。
import pyPdf
from tabula import read_pdf
reader = pyPdf.PdfFileReader(open("C:\Users\riley\Desktop\Bank Statements\50340.pdf", mode='rb' ))
n = reader.getNumPages()
df = []
for page in [str(i+1) for i in range(n)]:
if page == "1":
df.append(read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", area=(530,12.75,790.5,561), pages=page))
else:
df.append(read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", pages=page))
请注意,在单独阅读每个页面或同时阅读所有页面时,存在一些已知和未解决的问题。
祝你好运!
2017 年 8 月 3 日 编辑:
找到了一种更简单的方法来计算 pdf 的页数,而无需通过 pyPDf
import re
def count_pdf_pages(file_path):
rxcountpages = re.compile(r"/Type\s*/Page([^s]|$)", re.MULTILINE|re.DOTALL)
with open(file_path, "rb") as temp_file:
return len(rxcountpages.findall(temp_file.read()))
其中 file_path 是你的文件的路径当然