假设我有许多与此处类似的 pdf 文件:
我想提取下表并保存为 excel 文件:
我可以使用包excalibur手动提取表并保存 excel 文件。
使用 pip3安装Excalibur后,我使用以下命令初始化元数据数据库:
$神剑初始化数据库
然后使用以下命令启动网络服务器:
$ excalibur 网络服务器
然后转到 http://localhost:5000 并开始从 PDF 中提取表格数据。
我想知道是否可以使用 python 脚本自动为多个 pdf 文件执行此操作,这些文件包含excalibur-py、camelot、pdfminer等包,因为表格的大小和位置对于同一个城市的报告是固定的。
您可以从此链接下载其他报告文件。
非常感谢提前。