0

我编写了一个从 pdf 中提取数据的脚本。我正在使用 win32clipboard 模块将数据复制到 python 中。得到关于如何在每个文件中获取我需要的数据的逻辑。

我的过程的缺点是我必须打开每个 pdf Ctr-A 以全选然后 Ctrl-C 将其放入剪贴板。然后我运行我的脚本。作为参考,它使用 DataNitro 在 Excel 中运行。

我已经尝试过 PDFMiner,但它似乎没有得到维护,并且倾向于将文本分成小块。我正在挖掘的 PDF 包含许多“小”表。剪贴板中的副本似乎在将相关事物保持在一起方面做得非常好。

关于如何编写打开 PDF 的脚本选择全部和复制的任何建议。基本上我正在寻找一种 python 方法来编写操作系统脚本。直觉是这是不可能的,但也许有人知道。

4

1 回答 1

0

我已经决定使用 pyPdf。它有一个简单的方法,只需从 pdf 中提取文本。我编写了简单的函数来在本文中找到我需要的相关信息。将文本拆分为列表以便于数据识别。

还编写了一个循环来使用 glob 搜索获取相关文件并将其输入解析器。

import pyPdf
pdf = pyPdf.PdfFileReader(open(filename, "rb"))
data = ''
for page in pdf.pages:
   data += page.extractText()
data2 = data.split('\n')
于 2013-09-09T13:49:22.037 回答