2

对我来说,这实际上是 python 的第一天。我过去曾用 VBA、Java 和 Swift 编写过代码,但我很难按照在线指南编写 pdf 抓取工具。由于我不知道自己在做什么,所以每次我想测试我在网上找到的一些代码时,我都会碰壁。

基本信息

  • 视窗 7 64 位
  • 蟒蛇3.6.0
  • 蜘蛛3
  • 我有很多 pdf 相关的代码包(PyPDF2、pdfminer、pdfquery、pdfwrw 等)

目标

在 python 中创建一些东西,允许我将 PDF 从文件夹转换为 excel 文件(理想情况下)或文本文件(我将使用 VBA 来转换)。

问题

每次我从网上找到的指南中尝试一些示例代码时,我总是在调用要测试代码的 pdf 的行中遇到语法错误。下面的一些指南链接和错误示例。我应该将 test.pdf 放入与 .py 文件相同的文件中吗?

runfile('C:/Users/U587208/Desktop/pdffolder/pdfminer.py', wdir='C:/Users/U587208/Desktop/pdffolder')
  File "C:/Users/U587208/Desktop/pdffolder/pdfminer.py", line 79
    print pdf_to_csv('test.pdf', separator, threshold)
                   ^
SyntaxError: invalid syntax

4

3 回答 3

1

看来您正在关注的教程使用python 2。通常很少有明显的区别,最大的是在python 3中, print 变成了一个函数,所以

print()

我会建议更改您的 python 版本或查找 python 3 的教程。希望这会有所帮助

于 2017-06-12T18:40:47.067 回答
0

这里 以 Pdfminer python 3.5为例,如何从 PDF 中提取信息。但它并不能解决要导出到 Excel 的表的问题。商业产品可能会更好地做到这一点......

于 2017-06-12T18:54:04.880 回答
0

我正在尝试做同样的事情!我已经能够将我的 pdf 转换为文本,但是格式非常随机和混乱,我需要表格保持完整,以便能够将它们写入 Excel 数据表。我现在正在尝试转换为 XML 以查看是否更容易从中提取。如果我对此有所了解,我会告诉你:)

顺便说一句,如果您要使用 pdfminer,请使用 python 2。这是 pdfminer 的一些帮助https://media.readthedocs.org/pdf/pdfminer-docs/latest/pdfminer-docs.pdf

于 2017-06-13T13:42:50.847 回答