在 Python 3 中,我有一个包含 6,041 页的 PDF 文件“Ativos_Fevereiro_2018_servidores_rj.pdf”。我在一台装有 Ubuntu 的机器上
在每一页的顶部都有文本,两行。在一个表格下方,带有标题和两列。每张表36行,最后一页少
在每一页的最后,表格之后,还有一行文字
我想从这个 PDF 创建一个 CSV,只考虑页面中的表格。并忽略表格前后的文字
最初我测试了 tabula-py。但它会生成一个空文件:
from tabula import convert_into
convert_into("Ativos_Fevereiro_2018_servidores_rj.pdf", "test_s.csv", output_format="csv")
请问,有没有人知道另一种使用 tabula-py 来满足这种需求的方法?
或者以这种文件类型将 PDF 转换为 CSV 的另一种方法?