我使用 Pdfplumber 提取第 2 页第 3 节(通常)的表格。但它只适用于某些 pdf,其他不适用。对于失败的 pdf 文件,似乎 Pdfplumber 读取了按钮表而不是我想要的表。
我怎样才能拿到桌子?不起作用的pdf链接: pdfA
有效的pdf链接: pdfB
这是我的代码:
import pdfplumber
pdf = pdfplumber.open("/Users/chueckingmok/Desktop/selenium/Shell Omala 68.pdf")
page = pdf.pages[1]
table=page.extract_table()
import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
df
但是,此代码适用于 pdfB(我在上面提到过)。
顺便说一句,我在每个 pdf 中想要的表格在第 3 节中。
任何人都可以帮忙吗?
非常感谢琼
更新: 我刚刚找到了一个很好的包来提取 pdf 文件,没有任何问题。包是 fitz,它也被命名为 PyMuPDF。