对我来说,这实际上是 python 的第一天。我过去曾用 VBA、Java 和 Swift 编写过代码,但我很难按照在线指南编写 pdf 抓取工具。由于我不知道自己在做什么,所以每次我想测试我在网上找到的一些代码时,我都会碰壁。
基本信息
- 视窗 7 64 位
- 蟒蛇3.6.0
- 蜘蛛3
- 我有很多 pdf 相关的代码包(PyPDF2、pdfminer、pdfquery、pdfwrw 等)
目标
在 python 中创建一些东西,允许我将 PDF 从文件夹转换为 excel 文件(理想情况下)或文本文件(我将使用 VBA 来转换)。
问题
每次我从网上找到的指南中尝试一些示例代码时,我总是在调用要测试代码的 pdf 的行中遇到语法错误。下面的一些指南链接和错误示例。我应该将 test.pdf 放入与 .py 文件相同的文件中吗?
- 如何在数千个 PDF 文件中抓取表格?
- 由于最后一行的“for”,我得到了一个无效的语法错误
- PDFMiner 指南(链接)
runfile('C:/Users/U587208/Desktop/pdffolder/pdfminer.py', wdir='C:/Users/U587208/Desktop/pdffolder')
File "C:/Users/U587208/Desktop/pdffolder/pdfminer.py", line 79
print pdf_to_csv('test.pdf', separator, threshold)
^
SyntaxError: invalid syntax