我正在尝试将 PDF 文件的“内容”页面(例如第 2 页)提取为表格,并提供一个数据框来跟踪项目及其相应的起始页码。一些人建议使用“Tabula”。我尝试了几行,但似乎没有找到 read_pdf 模块或得到一个空的数据框。感谢任何帮助使其正常工作?
from tabula import wrapper
myfile=' http://www.hkexnews.hk/listedco/listconews/SEHK/2017/0410/LTN201704101126_C.pdf '
df = wrapper.read_pdf(myfile)