python - 通过剪贴板使用 python 挖掘 pdf 数据 - Python Scripting the OS

Question

我编写了一个从 pdf 中提取数据的脚本。我正在使用 win32clipboard 模块将数据复制到 python 中。得到关于如何在每个文件中获取我需要的数据的逻辑。

我的过程的缺点是我必须打开每个 pdf Ctr-A 以全选然后 Ctrl-C 将其放入剪贴板。然后我运行我的脚本。作为参考，它使用 DataNitro 在 Excel 中运行。

我已经尝试过 PDFMiner，但它似乎没有得到维护，并且倾向于将文本分成小块。我正在挖掘的 PDF 包含许多“小”表。剪贴板中的副本似乎在将相关事物保持在一起方面做得非常好。

关于如何编写打开 PDF 的脚本选择全部和复制的任何建议。基本上我正在寻找一种 python 方法来编写操作系统脚本。直觉是这是不可能的，但也许有人知道。

score 0 · Accepted Answer

我已经决定使用 pyPdf。它有一个简单的方法，只需从 pdf 中提取文本。我编写了简单的函数来在本文中找到我需要的相关信息。将文本拆分为列表以便于数据识别。

还编写了一个循环来使用 glob 搜索获取相关文件并将其输入解析器。

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
data = ''
for page in pdf.pages:
   data += page.extractText()
data2 = data.split('\n')

1 回答 1