0

我正在尝试将 PDF 文件的“内容”页面(例如第 2 页)提取为表格,并提供一个数据框来跟踪项目及其相应的起始页码。一些人建议使用“Tabula”。我尝试了几行,但似乎没有找到 read_pdf 模块或得到一个空的数据框。感谢任何帮助使其正常工作?

from tabula import wrapper 

myfile=' http://www.hkexnews.hk/listedco/listconews/SEHK/2017/0410/LTN201704101126_C.pdf '

df = wrapper.read_pdf(myfile)
4

1 回答 1

1
from tabula import read_pdf

File = "ArchivedResults/LTN201704101126_C.pdf"

df = read_pdf(File, pages=2, guess=False, columns=(248, 385))
print(df)



    Unnamed: 0          目錄
0            2        公司資料
1            3        財務概要
2            4        主席報告
3           11    管理層討論及分析
4           27       董事會報告
5           66      企業管治報告
6           86  環境、社會及管治報告
7          100     獨立核數師報告
8          109       綜合收益表
9          110     綜合全面收益表
10         111     綜合財務狀況表
11         114     綜合權益變動表
12         116     綜合現金流量表
13         118    綜合財務報表附註
14         227          釋義

当您只有 2 列时,Tabula 似乎在查找表格时遇到问题。解决方法是关闭自动查表选项(guess=False),然后指定列应该在哪里(注意你只指定列之间的空间,但你必须至少指定2所以我设置了第二个列分隔符到最后一列的任意距离)。一些用户可能需要指定和区域(area=(top,left,bottom,right)),但对于您的示例,这不是必需的。

于 2017-11-20T18:55:44.637 回答