我正在做一个需要从一些 PDF 文档中获取数据的项目。
目前我正在使用Foxit toolkit
(从脚本中调用它)将文档转换为 txt,然后遍历它。我对此很满意,但100$
对于这么小的项目来说,这只是我买不起的东西。
我已经测试了所有我能找到的免费转换器(比如
xpdf
,pdftotext
),但他们只是没有削减它,他们以一种我无法使用这些词来定位数据的方式弄乱了格式。我已经尝试了一些
Python
模块,pdfminer
但它们似乎在Python 3
.在转换为 PDF 之前我无法获取数据,因为我是从电话运营商那里获取的。
我正在寻找一种从 PDF或至少正确遵循换行符的转换器获取数据的方法。
更新: PyPDF2没有从 pdf 文档中获取任何文本。