python - 将 PDF 数据抓取到 Excel 绝对初学者

Question

对我来说，这实际上是 python 的第一天。我过去曾用 VBA、Java 和 Swift 编写过代码，但我很难按照在线指南编写 pdf 抓取工具。由于我不知道自己在做什么，所以每次我想测试我在网上找到的一些代码时，我都会碰壁。

基本信息

视窗 7 64 位
蟒蛇3.6.0
蜘蛛3
我有很多 pdf 相关的代码包（PyPDF2、pdfminer、pdfquery、pdfwrw 等）

目标

在 python 中创建一些东西，允许我将 PDF 从文件夹转换为 excel 文件（理想情况下）或文本文件（我将使用 VBA 来转换）。

问题

每次我从网上找到的指南中尝试一些示例代码时，我总是在调用要测试代码的 pdf 的行中遇到语法错误。下面的一些指南链接和错误示例。我应该将 test.pdf 放入与 .py 文件相同的文件中吗？

如何在数千个 PDF 文件中抓取表格？
- 由于最后一行的“for”，我得到了一个无效的语法错误
PDFMiner 指南（链接）

runfile('C:/Users/U587208/Desktop/pdffolder/pdfminer.py', wdir='C:/Users/U587208/Desktop/pdffolder')
  File "C:/Users/U587208/Desktop/pdffolder/pdfminer.py", line 79
    print pdf_to_csv('test.pdf', separator, threshold)
                   ^
SyntaxError: invalid syntax

score 1 · Accepted Answer

看来您正在关注的教程使用python 2。通常很少有明显的区别，最大的是在python 3中， print 变成了一个函数，所以

print()

我会建议更改您的 python 版本或查找 python 3 的教程。希望这会有所帮助

score 0 · Accepted Answer

这里以 Pdfminer python 3.5为例，如何从 PDF 中提取信息。但它并不能解决要导出到 Excel 的表的问题。商业产品可能会更好地做到这一点......

score 0 · Accepted Answer

我正在尝试做同样的事情！我已经能够将我的 pdf 转换为文本，但是格式非常随机和混乱，我需要表格保持完整，以便能够将它们写入 Excel 数据表。我现在正在尝试转换为 XML 以查看是否更容易从中提取。如果我对此有所了解，我会告诉你:)

顺便说一句，如果您要使用 pdfminer，请使用 python 2。这是 pdfminer 的一些帮助https://media.readthedocs.org/pdf/pdfminer-docs/latest/pdfminer-docs.pdf

python - 将 PDF 数据抓取到 Excel *绝对初学者*

3 回答 3

Related

Reference

python - 将 PDF 数据抓取到 Excel 绝对初学者