0

我将每天在一个简单的数字海洋实例(1 个 vCPU,1GB 内存)上运行 camelot,以从 +-150 页的 PDF 中提取信息并存储在数据库中。什么是最好的做法:

a) 一次阅读所有页面camelot.read_pdf('file.pdf', pages='all', flavor='stream')

b) 逐页阅读?

for page in range(150):
   camelot.read_pdf('file.pdf', pages=f'{page}', flavor='stream')

谢谢

4

1 回答 1

3

如果您有所需的内存,您将能够一次阅读它们,但您可能没有。因此,逐页提取数据可能是您认为“最佳”的方法,因为在数据提取之后,您将其替换为下一页,这意味着每次您在新页面中读取时,您都会从最后一页中释放内存空间。

希望这有所帮助。:)

于 2020-04-28T21:23:53.430 回答