tabula - 如何使用表格将 PDF 表格提取到数据框中

Question

我正在尝试将 PDF 文件的“内容”页面（例如第 2 页）提取为表格，并提供一个数据框来跟踪项目及其相应的起始页码。一些人建议使用“Tabula”。我尝试了几行，但似乎没有找到 read_pdf 模块或得到一个空的数据框。感谢任何帮助使其正常工作？

from tabula import wrapper

myfile=' http://www.hkexnews.hk/listedco/listconews/SEHK/2017/0410/LTN201704101126_C.pdf '

df = wrapper.read_pdf(myfile)

score 1 · Accepted Answer

from tabula import read_pdf

File = "ArchivedResults/LTN201704101126_C.pdf"

df = read_pdf(File, pages=2, guess=False, columns=(248, 385))
print(df)



    Unnamed: 0          目錄
0            2        公司資料
1            3        財務概要
2            4        主席報告
3           11    管理層討論及分析
4           27       董事會報告
5           66      企業管治報告
6           86  環境、社會及管治報告
7          100     獨立核數師報告
8          109       綜合收益表
9          110     綜合全面收益表
10         111     綜合財務狀況表
11         114     綜合權益變動表
12         116     綜合現金流量表
13         118    綜合財務報表附註
14         227          釋義

当您只有 2 列时，Tabula 似乎在查找表格时遇到问题。解决方法是关闭自动查表选项（guess=False），然后指定列应该在哪里（注意你只指定列之间的空间，但你必须至少指定2所以我设置了第二个列分隔符到最后一列的任意距离）。一些用户可能需要指定和区域（area=(top,left,bottom,right)），但对于您的示例，这不是必需的。

tabula - 如何使用表格将 PDF 表格提取到数据框中

1 回答 1

Related

Reference