python - 什么更好，一次阅读所有页面或在 python-camelot 中逐页阅读？

Question

我将每天在一个简单的数字海洋实例（1 个 vCPU，1GB 内存）上运行 camelot，以从 +-150 页的 PDF 中提取信息并存储在数据库中。什么是最好的做法：

a) 一次阅读所有页面camelot.read_pdf('file.pdf', pages='all', flavor='stream')？

b) 逐页阅读？

for page in range(150):
   camelot.read_pdf('file.pdf', pages=f'{page}', flavor='stream')

谢谢

score 3 · Accepted Answer

如果您有所需的内存，您将能够一次阅读它们，但您可能没有。因此，逐页提取数据可能是您认为“最佳”的方法，因为在数据提取之后，您将其替换为下一页，这意味着每次您在新页面中读取时，您都会从最后一页中释放内存空间。

希望这有所帮助。:)

1 回答 1