(我知道 pdfplumber 主要面向计算机生成的 PDF。但是,在我花了几天时间从扫描的 PDF 中手动输入数据之前,我想我会问 pdfplumber 是否能以某种方式帮助我。)
我的问题:
我从历史书籍中扫描了 PDF。
示例:来自统计年鉴的数据
现在我正在尝试从扫描的 PDF 中提取表格(示例中右下角的那个)。
我第一次尝试用 pdfplumber 提取表格没有成功。
例如
with pdfplumber.open('test.pdf') as pdf:
page = pdf.pages[0]
tables = page.extract_tables()
print(tables)
回来None
有没有希望我能够非手动提取这种数据?还是我应该把它吸干?
提前感谢您的任何帮助或建议!