我编写了一个从 pdf 中提取数据的脚本。我正在使用 win32clipboard 模块将数据复制到 python 中。得到关于如何在每个文件中获取我需要的数据的逻辑。
我的过程的缺点是我必须打开每个 pdf Ctr-A 以全选然后 Ctrl-C 将其放入剪贴板。然后我运行我的脚本。作为参考,它使用 DataNitro 在 Excel 中运行。
我已经尝试过 PDFMiner,但它似乎没有得到维护,并且倾向于将文本分成小块。我正在挖掘的 PDF 包含许多“小”表。剪贴板中的副本似乎在将相关事物保持在一起方面做得非常好。
关于如何编写打开 PDF 的脚本选择全部和复制的任何建议。基本上我正在寻找一种 python 方法来编写操作系统脚本。直觉是这是不可能的,但也许有人知道。