我目前正在使用tabula.read_pdf()
从 pdf 中提取表格。但是,没有关于该表来自哪个页面的信息。一种方法是获取总页数并通过传入pages
参数 for 来迭代每一页tabula.read_pdf()
。然而,这是极其低效的。以下是一些解释,我在这里使用示例 pdf http://www.annualreports.com/HostedData/AnnualReports/PDF/NASDAQ_AMZN_2019.pdf
%%time
for i in range(1,88):
tables = read_pdf(pdf_path, pages=i, stream=True)
# CPU times: user 803 ms, sys: 686 ms, total: 1.49 s
# Wall time: 3min 4s
%%time
tables = read_pdf(pdf_path, pages='all', stream=True)
# CPU times: user 402 ms, sys: 171 ms, total: 573 ms
# Wall time: 21.2 s